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AVANT-PROPOS 


La troisieme edition de cet ouvrage nous fournit l’occasion d’en souligner la longe¬ 
vity, mais surtout d’exprimer tous nos remerciements aux 6 000 lecteurs et plus qui 
Font lu, qui Font utilise comrne manuel de coins ou comme ouvrage de reference. 
D’abord paru en 1997 sous un title quelque peu different, Introduction aux theories 
des tests en sciences humain.es, il devait etre reedite en 2002 sous le meme titre que 
maintenant. Le choix du titre initial avait mal servi Fouvrage. Dans les librairies et 
les bibliotheques, Fouvrage avait ete place avec d’autres titl es en sciences humaines, 
loin de la psychologie et de F education ou il trouvait vraiment sa place par sa metho- 
dologie, mais aussi par les exemples servant a en illustrer les principaux concepts. 

Nous presentons aussi nos remerciements pour l’aide que plusieurs lecteurs 
et utilisateurs nous ont apportee en nous signalant les erreurs qui se sont retrouvees, 
malgre tous nos efforts, dans les premieres editions. Un remerciement tout particular 
a Fequipe de traduction de la version portugaise Intwdugao as teorias dos testes ein 
ciencias Iwmana parue en 2002 chez Porto Editora. Quoi de mieux qu’une traduction 
pour soulever des questions sur le sens, la formulation et trouver les mots justes ? La 
deuxieme edition parue en franqais la meme annee a pu tirer parti de ce feed-back 
portugais et indirectement la version actuelle. Cette troisieme edition devrait done 
etre, en plus d’une mise a jour necessaire, une version epuree de ces f'autes initiales. 

Un long chemin a done ete parcouru depuis les notes de corns du premier 
auteur invite comme professeur visiteur en mesure et evaluation a FUniversite libre 
de Bruxelles. Ces notes de coin s ont ete revisees et completees, dans leurs dimensions 
edumetrique et surtout psychometrique, par le deuxieme auteur. Le plan du livre, des 
lors, a pris sa forme actuelle si ce n’est de Fordre d’apparition de certains chapitres. 
Nous avoirs toil jours conserve une section de revision des notions statistiques de base 
afin de I'ournir au lecteur tous les prerequis necessaires a une comprehension des 
notions de base, tout en limitant a Fessentiel Fexpose de ces notions. 

Sept ans se sont ecoulesentre la premiere et la deuxieme edition. Apres 17 ans, 
une troisieme edition s’imposait d’autant plus que la deuxieme edition avait deja ete 
reimprimee. Des correctifs, des mises a jour et l’ajout de developpements recents, taut 
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Avant-propos 


dans le domaine de la theorie classique des scores que des modeles de reponse aux 
items, rendaient cette troisieme edition encore plus necessaire Mais aussi certaines 
notions fondamentales ne changent pas et cet ouvrage, d’abord voulu comme un 
manuel de cours et d’introduction, est devenu avec le temps un ouvrage de reference 
frequemment cite dans des publications scientifiques. Cette deuxieme vocation, l’ou- 
vrage la doit principalement a ses nombreuses references primaires aux articles de 
base et aux ouvrages fondamentaux en psychometric. Bref, cet ouvrage d’introduc¬ 
tion est progressivement devenu un ouvrage de reference grace a sa large couverture 
des principales notions. C’est pourquoi il nous a paru si important d’accompagner la 
troisieme edition d’un index sujets ainsi que de glossaires frangais-anglais et anglais- 
frangais etant donne que les principales references sont anglo-saxonnes. Cet acces en 
frangais a des notions principalement developpees en anglais est sans doute une autre 
raison de la seconde vocation de cet ouvrage. 

Ce livre est egalement le resultat d’une collaboration de longue date amorcee 
entre les deux auteurs en 1991 lors du colloque international de Montebello organise 
par le premier auteur et intitule « Theories modernes de la mesure : enjeux et pers¬ 
pectives ». C’est sans doute a l’occasion de ce colloque tenu en frangais et en anglais 
que nous sont apparues clairement a tous les deux l’importance et l’urgence de rendre 
accessible en frangais tout ce savoir acquis sur les theories des tests dans le monde 
anglo-saxon. Apres plus de vingt ans, un ouvrage en frangais sur les theories des tests 
conserve toute sa pertinence. 

Les tests, tant en education qu’en psychologie, prennent de plus en plus d’im- 
portance dans nos societes modernes L’impact social des evaluations a grande echelle 
dans les pays industrialises de meme que lors des evaluations internationales en est 
sans doute le temoignage le plus eloquent. Cette presence accrue de revaluation dans 
nos societes suscite parfois des reactions emotives, telle que la fameuse crainte asso- 
ciee au « teach to the test ». Face a de telles craintes, les questions de la validite des 
inferences que nous faisons a partir des resultats aux tests ainsi que des arguments 
employes pour les appuyer seront toujours de mise. Mais la faute du « teach to the 
test » n’incombe pas uniquement aux tests. Ces pratiques sont d’abord et avant tout 
de mauvaises pratiques pedagogiques dont on ne saurait attribuer la responsabilite 
entierement au domaine du testing. 

Enfin, la presence accrue de methodologies mixtes de recherche en psycholo¬ 
gie et en education, combinant donnees quantifiables et donnees qui le sont plus dif- 
ficilement on pas du tout, sont une autre raison de l’existence de ce livre. Tout n’est 
pas quantifiable ou ne merite pas de i’etre, mais ce qui pourrait l’etre merite que Ton 
s’y interesse correctement. La mesure n’est pas une necessite, mais a la « dictature 
des chiffres » nous opposons l’autorite que la mesure pent apporter a l’etude scienti- 
fique en education et en psychologie. L’autorite de la mesure ne vient pas des chiffres 
eux-memes, ni des donnees quantifiables. Elle s’appuie sur une utilisation appropriee 
des modeles theoriques des tests ainsi que sur la justesse des inferences que nous en 
retirons. Cet ouvrage montre que c’est possible et propose les methodologies appro- 
priees pour y parvenu'. 


Dany Laveault et Jacques Gregoire 
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1. Le processus de construction d'un test 

La construction d’un test en psychologie ou en education est un processus de longue 
haleine. Cinq etapes principals peuvent etre distinguees dans ce processus Cette 
section se limite a une breve presentation de chacune de ces etapes. Les premieres 
etapes seront analysees plus en detail dans les sections suivantes du present chapitre. 
Les autres feront I’objet des chapitres 4 a 7. 

1" ETAPE : La determination des utilisations PREVUES DU TEST 

La premiere question que doit se poser la personne desireuse de construire un test 
concerne les fonctions que ce dernier devra remplir. A quoi va-t-il servir ? Par exemple, 
un test de mathematique peut avoir pour fonction de selectionner des su jets, de diagnos- 
tiquer des difficultes d’apprentissage ou encore de determiner si un eleve maTtrise les 
competences attendues en (in d’annee scolaire. De meme, un questionnaire d’anxiete 
peut etre utilise pour recmter des personnes possedant certaines caracteristiques de per- 
sonnalite ou pour evaluer 1’effet d’un medicament anxiolytique. Le plus souvent, un 
meme test ne peut remplir toutes ces fonctions. En effet, les usages previsibles d’un test 
determinent profondement ses caracteristiques. En particulier, une distinction nelte doit 
etre tracee entre les tests normes et les tests criteries. Les tests normes visent a discri- 
miner les sujets appailenant a la population pour laquelle est construit le test. Ces tests 
peuvent, par exemple, nous procurer des informations sur le degre d’anxiete d’un sujet 
par rapport au niveau de l’anxiete dans l’ensemble de la population. II en va de meme 
pour le niveau de competence en mathematique ou pour tout autre caiacteristique que 
l’on souhaite mesurer. Par contre, les tests criteries ont pour fonction d’evaluer si un 
sujet possede ou non certaines caracteristiques prises comrne reference. Par exemple, 
pour remplir correctement une certaine fonction professionnelle, le niveau d’anxiete du 
sujet ne depasse-t-il pas un seuil determine ? Ou encore, le sujet possede-t-il les com¬ 
petences en mathematiques necessaires pour aborder un programme d’etudes donne ? 
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La construction d'un instrument de mesure 


Le choix de construire un test norme ou un test criterie conditionne la inethodologie 
utilisee. Des techniques particulieres doivent etre appliquees pour obtenir des tests pos- 
sedant les propiietes metriques specifiques dont on a besoin. 

La distinction entre test norme et test criterie n’est pas la seule qui puisse 
etre faite Dans le domaine educatif, il existe de profondes differences entre les tests 
destines a I’evaluation certificative et ceux utilises pour revaluation formative ou 
1’evaluation diagnostique. Un test certificate doit couvrir I’ensemble d’un programme 
scolaire. Un tel test est habituellement centre sur les performances. II doit en effet per- 
mettre de verifier si l’eleve est capable de realiser les taches que Ton attend de lui en 
fin d’apprentissage. Par contre, un test diagnostique est generalement beaucoup plus 
cible. Son but est de comprendre le sens d’une performance. Par exemple, il ne s’agit 
plus, comme avec un test certificatif, de simplement verifier si un eleve peut addi- 
tionner correctement deux nombres decimaux, mais de comprendre pourquoi certains 
eleves presentent des difficultes pour realiser de telles additions. L’information que 
Ton desire recueillir ne se limite plus a la performance, mais concerne les capacites 
cognitives sous-jacentes a ces performances. Pour atteindre cet objectif, il est neces- 
saire d’utiliser un test qui s’appuie sur un modele des processus mis en jeu pour rea¬ 
liser des additions avec des decimaux. Un tel modele permet d’eclairer les difficultes 
rencontrees par les eleves et, le cas echeant, de mettre en oeuvre des actions remedia- 
tives. Ainsi, les propiietes d’un test diagnostique sont necessairement ties differentes 
de celles d’un test certificatif. Ces deux types d’outils doivent, par consequent, etre 
coiujus de maniere specifique en s’appuyant sur une inethodologie adaptee. 

Il est possible d’operer d’autres distinctions entre les fonctions que peuvent 
remplir les tests. Comme nous venons de le voir, ces fonctions determinent la nature du 
test a construire et, par consequent, la inethodologie a utiliser pour elaborer un tel outil. 
On ne peut done eluder une reflexion approfondie sur l’usage auquel on destine un test 
Au point de depart du travail de construction, 1111 choix doit toujours etre opere entre 
diff erentes fonctions possibles. Il est illusoire de vouloir creer un test « generaliste » 
qui ambitionne de repondre a tous les besoins des praticiens. Dans la section 2, cette 
question sera approfondie dans le cas du developpement d’un test d’acquis scolaires. 

2 E ETAPE : La definition de ce que i/on souhaite mesurer 

Habituellement, le point de depart d’un test est un objectif relativement vague et 
general : « evaluer la comprehension en lecture a l’ecole primaire », « apprecier le 
developpement social de 3 a 6 ans », « diagnostiquer les troubles de la memoire », 
« selectionner du personnel de bureau », etc. Ces intentions sont encore beaucoup 
trop vagues pour permettre reellement de debuter la construction d’un test. Elies 
necessitent un travail d’approfondissement des concepts et d’operationnalisation de 
ceux-ci. En d’autres termes, il s’agit de definir avec precision les caracteristiques 
psychologiques ou educatives que le test devra mesurer. Sur base de cette definition, 
des items pourront alors etre construits. Cette premiere etape est done cruciale. Nous 
verrons dans le chapitre 4 que la validation du contenu du test repose sur ce travail 
prealable de definition de ce que Ton veut mesurer. 

Mais comment passer d’une intention vague a la definition operationnelle d’un 
concept ? Selon les domaines, plusieurs methodes peuvent etre utilisees : 

1. La definition des objectifs pedagogiques et la construction d’un tableau de spe¬ 
cifications. Lorsqu’il s’agit d’evaluer des apprentissages scolaires, la demarche 
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la plus frequence consiste a preciser les performances que les eleves devront 
demontrer a un moment donne de leur apprentissage. De nombreux outils out 
ete developpes pour permettre une operationnalisation sufiisante de ces objec- 
tifs. Le tableau de specifications est un de ces outils permettant de determiner 
les divers types de comportements attendus relativement a un contenu discipli- 
naire. La section 2 du present chapitre presente en detail la construction d’un 
tableau de specifications ainsi que d’autres methodes permettant de preciser 
les caracteristiques que doit evaluer un test d’acquis scolaire. 

2. L’analyse de contenu d’entretiens. Lorsque le praticien n’a pas d'idees precises 
a propos des caracteristiques permettant de discriminer les individus qui seront 
evalues par le test, il est interessant de commencer par interroger des per- 
sonnes appartenant a la population visee par ce test. L’interview, fibre ou semi- 
structuree, permet de recueillir un grand nombre d’informations qui seront 
selectionnees et classees au moyen d’une analyse de contenu. Par exemple, 
Huntet McKenna (1992) ont procede de la sorte pour mettre au point un ques¬ 
tionnaire de qualite de vie destine a des patients depresses. Cinq psychiatres 
ont interview^ 30 patients depresses a propos de differences facettes de leur 
vie quotidienne. Une analyse de contenu des entretiens a permis de mettre en 
evidence un certain nombre de propositions caracteristiques, permettant d’ap- 
precier la qualite de vie des patients depresses. Ces propositions ont ensuite 
servi a construire les items du questionnaire. 

3. L’obsen’cition directe des comportements. Dans certains cas, plutot que d’in- 
terroger les personnes, il est preferable de les observer dans leur milieu de vie 
ou de travail. Cette methode a ete utilisee par Binet pour construire le tout 
premier test d’intelligence de 1’histoire. Au debut de ce siecle, Binet ne pou- 
vait s’appuyer que sur un modele rudimentaire et vague de 1’intelligence. Des 
1900, il commengadonc a observer les handicapes mentaux adultes de l’Asile 
Sainte-Anne et les enfants d’une ecole d’un quartier populaire de Paris afin 
de mettre en evidence les comportements permettant de distinguer les indivi¬ 
dus sans handicap intellectuel des individus handicapes mentaux. Les items de 
I’echelle metrique d’intelligence de 1905 sont issus de ce travail d’observation. 

4. La methode des incidents critiques. L’origine de cette methode est attribute 
a Flanagan (1954). Elle est particulierement utile pour construire des outils 
d’evaluation des performances professionnelles. Elle consiste a demander a 
des responsables de decrire des situations de travail ou les employes sous leurs 
ordres ont agi de maniere particulierement efficace ou, au contraire, inefficace. 
Partant de cette description, certains comportements « critiques » peuvent etre 
mis en evidence et servir a construire des echelles d’evaluation. 

5. La reference d un modele tlieorique. A la difference des autres methodes, 
celle-ci ne part pas de 1’experience, mais d’un modele de la realite construit 
au cours de recherches anterieures. Depuis le debut des annees 1980, les deve- 
loppements de la psychologie cognitive ont conduit a la creation de nombreux 
modeles theoriques utilisables par les constructeurs de tests. Des tests destines 
au diagnostic des troubles de la lecture ont, par exemple, ete crees sur base de 
modeles decrivant les processus impliques dans 1’activite de lecture (p.ex. de 
Partz, 1994 ; Mousty & ah, 1994). D’autres outils ont egalement ete constants 
en reference a des modeles theoriques pour evaluer des caracteristiques aussi 
diverses que le calcul, la motivation, la memoire. 
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3 E etape : La creation des items 

II y a pi es de cinquante ans, Georges Gallup, fondateurdu celebre institut de sondage 
du meme nom, affirmait (1947, p. 383) : «• Trop d’attention a ete accordee a la consti¬ 
tution des ecliantillons et trop pen a la creation des questions [...] Des differences 
dans la construction des questions conduisent souvent d des resultats qui presentent 
de plus grandes variations que cedes luibituellement observees en fonction des dif- 
ferentes techniques d’echantillonnage ». Cette constatation garde toute son actualite 
et peut etre generalisee aux questions construites pour les tests psychologies et les 
tests d’acquis scolaires. Souvent, les praticiens ne suivent aucune methodologie pour 
construire les items. Ayant en tete ce qu’ils souhaitent mesurer, ils se fient a leur 
intuition pour produire les questions. Pourtant, il est indispensable d’avoir un pro jet 
et un plan precis avant de se lancer dans la production d’items : 

1. Quel format d’items choisir ? Pourquoi ? Le choix d’un format ne doit pas etre 
arbitrage. II decoule d’un ensemble de contraintes concernant les objectifs du test 
et les conditions materielles de creation, de passation et de cotation de celui-ci. 
En consequence, il n’y a pas de bon format d’item dans I’absolu. Un fonnat est 
bon s’il est adequat au but et a la situation devaluation. La section 3 du present 
chapitre aborde de maniere detaillee la question du choix du format d’item et 
des regies de construction de differents formats de questions fennees et ouvertes. 

2. Quel doit etre le niveau de difficulte des items ? Le choix du niveau de dif- 
ficulte des items depend de 1’objectif du test. Ce niveau variera selon que le 
test est norme ou criterie, certificatif ou formatif. En d’autres termes, c’est la 
nature des informations que Ton desire recueillir qui doit determiner le niveau 
de difficult^ des items a produire. 

3. Coinbien faut-il creer d'items ? Le nombre d’items a creer depend de plusieurs 
facteurs. Le premier facteur est la duree du test. Selon que I’on souhaite un test 
court, pouvant etre passe en 10 minutes, ou un test diagnostique se deroulant sur 
plusieurs seances d’examen, le nombre d’items a creer variera considerablement. 
Un second facteur a prendre en compte est le niveau desire de fidelite du test. 
Un test long sera generalement plus fidele qu’un test court (voir chapitre 3). Par 
ailleurs, si le test comporte plusieurs sous-scores, il sera necessaire d’assurer la 
fidelite de ceux-ci en prevoyant sulifisainment d’items dans chacune des sous- 
echelles du test. Enfin, un dernier facteur a prendre en consideration est I’elimi- 
nation, quasi inevitable, de ceilains items apres leur evaluation par des expeils 
et leur mise a 1’essai. Si 1’on veut que la version finale du test contienne assez 
d’items, il faudra done en creer plus que le strict necessaire. Si, par exemple, le 
test final doit contenir 20 items, on en creera 30 et 1’on retiendra les 20 meilleurs 
de ceux-ci. Habituellement, un surplus de 30 a 50 % d’items est necessaire pour 
eviter de ne pas avoir un nombre suffisant d’items apres la mise a I’essai. 


4 E ETAPE : U EVALUATION DES ITEMS 

Une delinition precise de ce que I’on souhaite mesurer et une methodologie rigoureuse 
de construction des items sont des conditions necessaires, mais non suflisantes pour 
obtenir des items valides et fiables. Pour garantir les proprietes metriques des items, 
une evaluation minutieuse de ceux-ci doit egalement etre realisee. Deux demarches 
complementaires sont habituellement suivies pour realiser cette tache. 
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1. Une evaluation des items par des juges. Ceux-ci sont charges d’apprecier la 
conformite des items aux exigences definies lots de la seconde etape du pro¬ 
cessus de construction du test. Les methodes devaluation des items par des 
juges sont detaillees dans la section 2 du chapitre 4 consacre a la validite. 

2. La realisation d’une mise a I’essai des items suivie d’une analyse qualita¬ 
tive et quantitative des resultats. La mise a I’essai complete I’appreciation des 
items par des juges. Cette derniere evaluation reste en effet subjective malgre 
la rigueur methodologique avec laquelle elle peut etre realisee. La mise a I’es- 
sai permet de recueillir des donnees empiriques, directement de la population 
a laquelle est destine le test 

La mise a 1’essai consiste a faire passer tous les items a un echantillon de la 
population. Cet echantillon ne doit pas necessairement etre representatif (voir cha¬ 
pitre 6 pour une discussion de cette notion) ni de ti es grande taille. Sa taille depend en 
fait de 1’heterogeneite de la population visee par le test et de la grandeur de la popu¬ 
lation de reference. Par exemple, si un questionnaire de stress est destine a evaluer 
uniquement des pilotes d'avion, une mise a I’essai sur un echantillon de 50 pilotes 
permettra generalement une evaluation satisfaisante des items, car la population des 
pilotes d’avion est plus homogene et de plus petite taille que la population en general. 
Par contre, si la population est plus heterogene, un echantillon de 200 a 300 personnes 
peut etre necessaire pour realiser une mise a I’essai valable. Par exemple, la mise a 
i’essai des items de la version fran^aise du WISC-III (Wechsler Intelligence Scale 
for Children - version 3) a ete realisee sur un echantillon de 220 enfants. Ce test est 
destine a evaluer tous les enfants framjais entre 6 et 16 ans. Dans ce cas, I’echantillon 
du pretest doit etre de plus grande taille, car il doit incline des enfants des deux sexes, 
de differents ages et de differents milieux sociaux. On ne vise toutefois pas a ce 
qu’un tel echantillon soit parfaitement representatif de la population. II doit avant tout 
refieter 1’heterogeneite de celle-ci. Un echantillon trop homogene risque en effet de 
masquer certains items problematiques. Par exemple, si les items d’un questionnaire 
de depression destine a des personnes agees sont pretestes sur un echantillon qui ne 
comprend que des retraites possedant un diplome d’etudes superieures. certains pro¬ 
blemes risquent de passer inaper^us. L’inclusion de personnes ages possedant le seul 
diplome d’etudes primaires aurait permis de mettre en evidence des questions dont le 
vocabulaire trop complexe peut entrainer des erreurs de comprehension. 

Les resultats d’une mise a 1’essai sont analyses d’un point de vue taut quali- 
tatif que quantitatif. En particular, les commentaires des sujets a propos des items 
peuvent se reveler precieux pour comprendre des resultats aberrants et pour remedier 
a certains problemes de formulation des questions. De meme, les problemes de mani¬ 
pulation du materiel, d’enregistrement des reponses, de temps de passation, de eola¬ 
tion des reponses peuvent etre reperes a cette occasion. Ces problemes, en apparence 
mineurs, doivent retenir toute I’attention du constructeur car ils peuvent dirtiinuer 
considerablement la validite des resultats d’un test. C’est, par exemple, le cas d’un 
espace trop petit pour noter les reponses ou d’un livret de test difficile a manipuler. 

En plus de ces verifications qualitatives, la mise a I’essai permet de realiser 
differentes analyses statistiques des resultats. Celles-ci sont detaillees dans le cha¬ 
pitre 5 consacre a I’analyse des items. Ces analyses portent, entre autres, sur la dif- 
ficulte des items, leur discrimination, leur fonctionnement differentiel. Sur base de 
ces analyses et des observations qualitatives, les meilleurs items seront finalement 
selectionnes et serviront a construire la version definitive du test. 
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5 E ETAPE : La DETERMINATION DES PROPRIETES METRIQUES DU TEST DEFINITIF 

Une fois les meilleurs items selectionnes et la version definitive du test constitute, il 
reste a determiner les proprietes metriques de ce test. Les proprietes qui doivent rete- 
nir 1’attention du constructeur varient en fonction de la nature du test. S’il s’agit d’un 
test norrne, il sera necessaire d’etablir des normes et de presenter celles-ci selon une 
echelle aisement comprehensible par les praticiens. S’il s’agit d’un test ciiterie, il fau- 
dra preciser des scores de reference utiles. Par ailleurs, si les resultats du test doivent 
etre mis en relation avec ceux d’auties tests, il y aura lieu de mettre en equivalence les 
echelles de mesure concernees. Les techniques necessaires pour determiner les normes, 
les scores de reference et les equivalences sont presentees en detail dans le chapitre 6. 

Par ailleurs, une investigation approfondie de la validite et de la fidelite des 
resultats de la version finale du test devra toujours etre realisee. Le constructeur doit 
rassembler des preuves de la validite des inferences permises par les resultats au test. 
Par exemple, s’il propose aux praticiens de calculer et d’interpreter differents sous- 
scores au test, il sera necessaire de prouver la pertinence de tels sous-scores quant a 
1’interpretation qui en est faite (American Psychological Association, 1999, p. 20). 
Les fondements et la methodologie de telles etudes de validite sont explicites dans 
le chapitre 4. Il faut souligner que 1’evaluation de la validite des resultats a un test 
n’est pas du seul ressort du constructeur. Elle est partagee par l’utilisateur du test. En 
fait, la validite n’est jamais une qualite acquise une fois pour toutes. Chaque nouvelle 
inference qu’un praticien veut realiser a partir des resultats d’un test doit faire I’objet 
d’une validation specifique. Par exemple, si un test de memoire a ete cree pour evaluer 
les competences mnesiques des enfants et des adolescents, la pertinence de I’usage de 
ce test avec des adultes devra etre demontree sur base de donnees empiriques. 

Le constructeur devra egalement apporter des informations a propos de la fide¬ 
lite des resultats. Il peut choisir parnii une variete d’indicateurs tels que le coefficient 
de fidelite et les autres mesures liees a celui-ci et necessaires aux praticiens, telles que 
I’erreur de mesure de scores, les intervalles de confiance, I’erreur de mesure des diffe¬ 
rences entre scores, etc. Les techniques necessaires pour calculer ces valeurs relatives 
a la fidelite sont presentees de maniere detaillee dans le chapitre 3. 

Lorsqu’un test n’est pas reserve au seul usage de son constructeur, mais est 
destine a etre diffuse, la redaction d’une documentation destinee aux utilisateurs est 
necessaire (American Educational Research Association, 1999, pp. 67-70). Cette 
documentation doit presenter les donnees metriques citees ci-dessus (normes, coeffi¬ 
cient de fidelite...) ainsi que les bases theoriques du test, les fonctions pour lesquelles 
il a ete cree et les qualifications requises pour pouvoir l’utiliser et en interpreter cor- 
rectement les resultats. Le constructeur d’un test n’a pas settlement une responsabilite 
methodologique, il doit egalement assumer une responsabilite ethique. L’instrument 
qu’il a cree va en effet servir a evaluer des personnes et a prendre des decisions a leur 
propos. Les informations communiquees dans le manuel doivent permettre de garantir 
un usage correct du test dans le respect des principes deontologiques. 

Au-dela des difficultes pratiques et devant les enjeux eleves entourant I’utilisa- 
tion des tests, l’utilisateur et le constructeur de tests ont le devoir de se conformer a un 
certain nombre de regies deontologiques et a posseder des standards ethiques eleves En 
plus des references deja mentionnees, il existe plusieurs autres references en ce domaine, 
notamment un numero special de la revue Mesure et evaluation en education (1997) 
totalement consacre a ces questions dans le domaine de l’education. Pour une perspective 




La construction d'un test d'acquis scolaires 


15 


plus generate concernant l’ethique de l’agir evaluationnel, Hadji (2012) aborde plusieurs 
questions philosophiques formant la base d’une ethique en evaluation. 

2. La construction d'un test d'acquis scolaires 

2.1 Definition des fonctions du test 

Dans Fenseignement, les tests sont appeles a jouer plusieurs roles. L’instrument de 
mesure sera construit differennnent selon la fonction a laquelle on le destine. Voici 
quelques usages courants des instruments de mesure en contexte scolaire : 

1. dresser un bilan des acquis de 1’eleve ; 

2. prendre une decision sur la promotion de l’eleve ; 

3 selectionner les eleves selon certaines caracteristiques particulieres afin de for¬ 
mer des groupes ; 

4. identifier les aspects de la resolution d’un probleme source de difficultes ; 

5. identifier les transfers qui out ou n’ont pas eu lieu ; 

6. preparer une revision de la matiere a partir des points pour lesquels certains 
eleves eprouvent des difficultes ; 

7. faire prendre conscience aux eleves de certains points majeurs de la matiere. 
Cette liste n’est pas exhaustive. Elle illustre simplement deux grands ensembles 

de situations ou les tests jouent un role important en situation scolaire : 

a) revaluation sommative (situations I, 2 et 3) ; 

b) revaluation formative (situations 4, 5, 6 et 7). 

Dans le premier cas, on cherche a construire un instrument de mesure qui per- 
mette d’evaluer un echantillon de toute la matiere enseignee. Un bon bilan necessite 
un echantillonnage du contenu qui soit exhaustif et representatif. Pour ce faire, une 
mesure fondee sur les objectifs d’apprentissage est necessaire. 

Dans le second cas, on cherche a construire un outil qui permette une prise 
d’information focalisee et comprehensive. En fait, 1’interet n’est pas de couvrir toute 
la matiere, mais un aspect bien particulier de celle-ci. Alois que plusieurs objectifs 
peuvent etre couverts dans un bilan, revaluation formative peut ne porter que sur un 
seul objectif. L’evaluation formative a pour fonction de fournir a l’enseignant et a 
I’eleve une information pertinente sur le deroulement des apprentissages. C’est pour- 
quoi I’enseignant veut controler plusieurs aspects de la tache qu’il soumet a l’eleve 
pour tester la stabilite des apprentissages dans differents contextes ou situations d’ap¬ 
prentissage. C’est ce qu’une mesure criteriee lui permet d’accomplir. 

Le tableau 1.1 decrit les differentes categories de prise d’information que l’on 
rencontre en situation d’apprentissage scolaire. Les qualites de 1’instrument de mesure 
doivent s’accorder avec le type d’information recherchee et les buts poursuivis. Dans 
bien des cas, une simple interrogation orale peut suffire. Dans des situations plus com¬ 
plexes ou l’on doit articuler un plan d’intervention, cette prise d’information devra 
etre complete pour rendre possible [’elaboration de strategies d’enseignement adaptees 
(evaluation fonnative). Mais tout depend de ce que I’on entend par information com¬ 
plete. Dans le cas d’un bilan (evaluation sommative), elle signifie que (’instrument de 
mesure couvre la totalite ou it tout le moins une grande partie des contenus scolaires 
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Tableau 1.1 — Fonctions de revaluation et qualites attendues 
des instruments de mesure 


But de I'evaluotion 

Qualites souhaitees des mesures 

Procedure 

Obtenir une retroaction, observer 

Informatives 

Echanges spontanes, interrogations 
par essai-erreur 

Faire un bilan, certifier 

Representatives et fideles 

Definition des objectifs et tableau 
de specifications 

Remedier aux difficulty, aider 

Informatives, pertinentes et precises 

Construction de tests criteries 


vises par les objectifs d’apprentissage a evaluer. Dans le cas d’une evaluation forma¬ 
tive (ou diagnostique), elle signifie que I’instrument de mesure couvre l’apprentissage 
dans sa continuite, telle que manifestee par 1’acquisition progressive des processus 
d’apprentissage en jeu. Dans les sections suivantes, la methodologie utilisee pour 
construire des instruments sommatifs (§ 2.2) et diagnostiques (§ 2.3) sera detaillee. 

2.2 [.'evaluation sommative 

2.2.1 Lo mesure fondee sur les objectifs 

Pour dresser un bilan representatif des apprentissages des eleves, il faut que celui-ci 
reflete les objectifs du programme d’etudes et de l’enseignement en salle de classe. 
Les programmes d’etudes comportent generalement plusieurs categories d’objectifs. 
Ceux-ci peuvent etre regroupes selon leur specificite (objectif global, general, speci- 
fique) ou selon leur position dans line sequence d’apprentissage (objectif intermediaire 
ou terminal). Quelle que soit la categorie a laquelle il appartient, 1’objectif possede 
des caracteristiques essentielles et des caracteristiques accessoires (tableau 1.2). 

Lors de la redaction d’un objectif, les deux caracteristiques essentielles sont : 

• un verbe d’action et un seul ; 

• un contenu (complement d’objet) et un seul. 

Le verbe d’action doit decrire un comportement observable directement (p.ex. 
cocher, souligner, ecrire, lancer, etc.) ou indirectement (p.ex. identifier, choisir, etc.). 
Il ne doit y avoir qu’un seul verbe par objectif, sinon les attentes exprimees peu¬ 
vent donner lieu a interpretation. Prenons l’exemple de 1’objectif suivant : « Identi¬ 
fier et nonwter les capitales provinciates du Canada ». La presence de deux verbes 
rend confuses les attentes en ce qui concerne les apprentissages des eleves. Sera-t-on 


Tableau 1.2 — Formulation des objectifs d'apprentissage 



Obligotaire 


Optionnel 

Verbe 

• un seul verbe 

• un verbe d'action 

• doit decrire un comportement univoque 

Contexte 

• ce qui est ou n'est pas disponible 

Contenu 

• un seul contenu par objectif 

• doit etre un element ou un sous-element 
d'un programme 

Criteres 

devaluation 

• condition d'acceptation 
de la performance 

• seuil de performance 
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satisfait lorsque l’eleve saura nommer les capitales du Canada ou encore lorsqu’il 
pourra les identifier a partir d’une liste oli d’une carte geographique ? Pour conside- 
rer cet objectif coniine atteint, faudra-t-il que 1’eleve manifeste les deux comporte- 
inents (identifier et nommer) ou un seul des deux (identifier ou nommer) ? L’objectif 
manque de precision, non seulement a cause de l’ambigui'te creee par la presence de 
deux verbes, mais aussi parce que 1’on ignore tout des conditions de realisation de 
la performance et du seuil de reussite permettant de determiner quand l’objectif peut 
etre considere coniine atteint. Pour accroitre la specificite des objectifs, on ajoutera 
generalement les composantes suivantes a l’objectif : 

• le contexte dans lequel sera realisee la performance attendue ; 

• le critere d’acceptation de la performance ; 

• le seuil d’acceptation de la performance. 

On ne s’attend pas a retrouver ces caracteristiques accessoires parmi les objec¬ 
tifs generaux. Par contre, elles sont essentielles a des objectifs dits specifiques. La 
figure 1.1 fournit un exemple d’un objectif specifique comportant toutes ces compo¬ 
santes accessoires. 

Le contexte decrit dans quelles conditions 1’eleve realisera sa performance et 
ce qui sera a sa disposition. Dans le cas de l’exemple de la figure 1.1. il s’agit d’un 
atlas. Dans le cas d’autres objectifs, il pourrait s’agir d’une calculatrice (mathema- 
tiques), d’un dictionnaire ou d’une grammaire (frangais langue maternelle ou langue 
seconde). Le critere d’acceptation de la performance decnt le niveau de qualite de la 
performance attendue. Dans 1’exemple, les coordonnees devront etre relevees avec 
une precision d’un degre. Une erreur superieure a un degre invaliderait la reponse en 
entier. Enfin, le seuil de reussite fournit un critere quantitatif pour considerer l’ob- 
jectif coniine atteint. II etablit combien de fois l’eleve doit repeter sa performance au 
critere d’acceptation fixe pour que Ton considere qu’il maitrise le contenu de l’ob- 
jectif. Les seuils les plus courants oscillent generalement entre 80 % et 100 %. Dans 
le cas de l’objectif de la figure 1.1, ce seuil est de 90 %. Qu’est-ce qui constituerait 
un seuil de reussite acceptable pour I’objectif « identifier les capitales provinciates 
da Canada ? », 80 % ? 90 % ? Cela pourrait dependre des eleves a qui s’adresse cet 
objectif et du programme d’etudes de ces eleves : le seuil pourrait etre moindre pour 
des eleves beiges que pour des eleves canadiens, par exemple. 



A I 1 aide d'un atlas, trouver la longitude et 


la latitude exacte des capitales des pays d'Europe, 

avec une precision de plus ou moins un degre, 
neuf fois sur 10. i 



Criteres devaluation 


Figure 1.1 — Exemple de formulation d'un objectif 
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II existe plusieurs faults de determiner un seuil de reussite. Cette question 
sera abordee plus en detail dans le chapitre 6, section 4. Pour I’instant, mention- 
nons que les composantes accessoires des objectifs sont parfois precisees dans les 
programmes d’etudes en fonction des niveaux d’enseignement. Si elles ne sont pas 
precisees, elles peuvent souvent etre deduites a partir d’informations complementaires 
(p.ex. les directives provenant des autorites scolaires) et a partir du jugement pro- 
fessionnel des enseignants. Le contexte, le seuil et les conditions d’acceptation de 
la performance sont egalement des moyens de graduer les attentes en termes d’exi- 
gences et d’etablir une progression dans les apprentissages. Ils permettent d’assurer 
une certaine continuity dans l’enseignement par objectif. 

2.2.2 Le modele de Deno et Jenkins et les taxonomies d'objectifs 

Les objectifs specifiques nous permettent de preciser la forme que prendront reva¬ 
luation des apprentissages et les attentes que nous avons envers les eleves. Toutefois, 
ils sont peu pratiques pour considerer un programme d’etudes dans son ensemble. 
Lorsqu’il s’agit de planification a long terme de l’enseignement et d’integration des 
matieres, les objectifs specifiques peuvent devenir encombrants. L’interet doit alors 
se porter sur I’organisation des grandes paities de la matiere et sur le niveau global 
d’approfondissement des apprentissages vises. 

Deno et Jenkins (1969) ont elabore un modele qui tient compte de la specifi- 
cite necessaire des objectifs a differents niveaux d’intervention. La figure 1.2 decrit 
les quatre niveaux (A a D) du modele, allant de l’objectif global a la tache d’examen. 
II s’agit d’un modele hierarchique ou chaque niveau superieur contient les objectifs 
des niveaux inferieurs. 

Le niveau A est celui des objectifs globcuix. II sert a preciser les choix politiques, 
institutionnels, les grandes lignes du projet e'ducatif et de la mission de l'enseignement. 


(A) 


(B) 


(C) 


(D) 



Figure 1.2 — Le modele de Deno et Jenkins 
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Le niveau B cherche a preciser les objectifs globaux en situant le degre d’approfondis- 
sement des capacites (au niveau cognitif) ou le degre d’interiorisation (au niveau affec- 
tif) des attentes de 1’objectif: c’est le niveau des objectifs generaux. 11 ne s’agit pas a 
ce niveau d’indiquer de fa 9 on precise les attentes vis-a-vis des eleves. II s’agit plutot 
d’une premiere indication du degre d’approfondissement vise, tant au niveau cognitif 
qu’au niveau affectif. Les objectifs generaux sont particulierement utiles pour dresser 
les grandes lignes d’un programme d’etudes et articuler entre eux des objectifs qui 
peuvent, par leur nature et leur contenu, etre foils differents. Au niveau C, les inten¬ 
tions se precisent a un point tel qu’on peut y indiquer les conditions precises devalua¬ 
tion : categorie de comportements attendus, contenus precis, conditions de realisation 
de la performance et conditions d’acceptation de la performance. C’est le niveau des 
objectifs dits specificities. Enfin, au niveau D, on retrouve les fetches d’exennen de meme 
que les situations entrainant (’observation de performances complexes. C’est le niveau 
le plus specifique des quatre niveaux du modele. Ce n’est pas a proprement parler un 
objectif, mais, comme le mentionne Ebel (1956), la tache est la meilleure maniere de 
connaftre comment se traduisent les objectifs pedagogiques dans les faits. 

Le modele de Deno et Jenkins permet de categoriser les objectifs en fonction 
de leur specificite, mais aussi en fonction de leur role dans un programme d’etudes. 
Les objectifs speciliques (niveau C) permettent de preciser ce qui sera evalue. Les 
objectifs generaux (niveau B) articulent les differents contenus d’un programme 
d’etudes et precisent les processus vises par chaque grande categorie d’apprentissage. 

C’est au niveau B qu’interviennent les taxonomies d’objectifs generaux. On 
distingue trois grandes categories taxonomiques : 

1. objectifs cognitifs (Bloom, Engelhait, Furst, Hill, & Krathwohl, 1956 ; Ander¬ 
son, Krathwohl, Airasian, Cruikshank, Mayer, Pintrich, & Wittrock, 2001) ; 

2. objectifs affectifs (Krathwohl, Bloom, & Masia, 1964) ; 

3. objectifs psychomoteurs (Harrow, 1972) 

Dans le cas des objectifs cognitifs, l’objectif general permet de definir de 
maniere suffisamment precise les connaissances et capacites visees par le programme 
d’etudes. La taxonomie des objectifs cognitifs de Bloom fait la distinction entre six 
niveaux d’habilete et d’acquisition de connaissances. Ces six niveaux hierarchiques 
sont decrits a la figure 1.3 (connaissances) et a la figure 1.4 (habiletes). La taxonomie 
des objectifs cognitifs joue ainsi un double role : 

1. au niveau des programmes d’etudes ; 

2. au niveau de revaluation des apprentissages. 

Au niveau des programmes d’etudes, la taxonomie apporte plus de rigueur 
dans la definition de ce que l’on entend generalement par « connaissance », « com¬ 
prehension », etc. De plus, elle permet de s’assurer que les attentes vis-a-vis des 
apprentissages des eleves sont conformes a leurs capacites et a leur developpement 
cognitif. On peut ainsi etablir une progression des habiletes intellectuelles impliquees 
dans l’apprentissage de memes contenus, mais a des niveaux scolaires differents. 
Par exemple, « etablir une classification cl it contenu de son herbier a parti r d’un 
modele fourni par I'enseignant » constitue un objectif cognitif different de celui qui 
consiste a « elaborer une classification originate du contenu de son herbier a partir 
des echantillons de plantes recueillies ». Le premier objectif porte sur 1’application 
du modele de l’enseignant (Figure 1.4, categorie 3.00), alors que le second repose 
davantage sur la synthese (elaboration d’un plan d’action, Figure 1.4, categorie 5.20). 



20 


La construction d'un instrument de mesure 


1.00 Acquisition 

des connaissances 


1.10 Connaissance des 
donnees pailiculieres 

-► 

1.11 Terminotogie 

1.12 Faits particuliers 




1.20 Connaissance 
des moyens 
permeltant I’utilisation 
des donnees 
particulieres 

-► 

1.21 Conventions 

1.22 Tendances 

et sequences 

1.23 Classifications 

1.24 Criteres 

1.25 Methodes 




1.30 Connaissance 

des representations 
abstraites 

— 

1.31 Principes et lois 

1.32 Theories 


Figure 1.3 — Toxonomie des objectifs cognitifs : les connoissonces 



Figure 1.4 — Toxonomie des objectifs cognitifs : les hobiletes 

Au niveau de revaluation des apprentissages, la taxonomie permet de s’as- 
surer que les processus cognitifs actives lors de I’apprentissage seront mesures lots 
de l’examen. Bloom et ses collaborateurs ont elabore leur taxonomie apres avoir 
constate que les examens produits par les enseignants portaient habituellement sur la 
seule restitution des connaissances Selon Bloom, Engelhart, Furst, Hill, & Krathwohl 
(1956), il etait important de mesurer autre chose que les processus de pensee faisant 
intervenir principalement la memorisation. Malheureusement, quelque trente annees 
plus tard, Bloom (1984) constatait que la situation n’avait guere change et que peu 
d’enseignants s’efforqaient de mesurer les capacites superieures. Une mise a jour de 
la taxonomie de Bloom et al. a ete realisee par Anderson & Krathwohl (2001), mais 
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celle-ci tarde a s’implanter dans les milieux de l’education. Elle est mieux adaptee 
a revaluation de performances complexes ou autres manifestations de l’acquisition 
de competences. La version originale. moins complexe, demeure cependant encore 
largement utilisee malgre les lacunes que la mise a jour a voulu corriger et les chan- 
gements apportes par une approche par competences dans la plupart des programmes 
d’etudes. 

Les objectifs generaux ont egalement une incidence directe sur 1’interpretation 
des objectifs specifiques et, par ricochet, sur revaluation des apprentissages. Prenons 
une situation concrete assez repandue. Supposons que nous demandions a un etudiant 
de « fournir un exemple de renforcement positif ». S’il s’agit d’un objectif de connais- 
sance, il suffira a 1’etudiant de repeter un exemple qu’il a entendu en classe ou lu dans 
le manuel obligatoire du cours. Si, par contre, il s’agit d’un objectif de comprehen¬ 
sion, nous nous attendons a ce que I’etudiant fournisse un exemple original. La reite¬ 
ration d’un exemple connu ne serait pas suffisante pour pai ler de comprehension De 
ce dernier exemple, nous pouvons conclure qu’une meme tache peut etre employee 
pour mesurer des niveaux taxonomiques fort differents La condition d’acceptation de 
la performance permet dans ce cas-ci de s’assurer que la question d’examen mesure 
bien le niveau taxonomique qu’elle est censee mesurer. Pour que les choses soient 
claires pour l’eleve, il faudra que l’enonce de la question soit sans equivoque a pro- 
pos de cette condition d’acceptation Par exemple : « Ecrivez un exemple original de 
renforcement positif. Les exemples du manuel de cours ou du professeur ne seront 
pas acceptes ». 

2.2.3 Objectifs terminoux et objectifs intermediaires 

Dans un autre ordre d’idee, il est parfois necessaire d’aborder l’articulation des objec¬ 
tifs dans la sequence d’apprentissage. La taxonomie des objectifs permet de decrire 
une hierarchisation des processus cognitifs, mais cette articulation est fort generate. 
De plus, le type de relation decrite par la taxonomie des objectifs se limite a (’inclu¬ 
sion. D’autres relations entre objectifs d’apprentissage sont possibles. 

Lorsque I’on souhaite preciser I’enchaTnement de plusieurs objectifs dans un 
programme d’etudes, on peut distinguer les objectifs terminaux des objectifs inter¬ 
mediaires. L’objectif terminal decrit la finalite ultime d’un apprentissage, son point 
d’arrivee. L’objectif intermediaire enumere les etapes necessaires qui doivent jalon- 
ner le cheminement de l’eleve du point de depart au point d’arrivee. Sans la maitrise 
de ces jalons, la maitrise de l’objectif terminal est compromise. Par contre, lorsque 
1’objectif terminal est atteint, on peut conclure que les objectifs intermediaires ont 
ete maltrises. 

Les objectifs terminaux conviennent particulierement a I’evaluation somma- 
tive. Ils permettent de couvrir une grande variete de contenus. De plus, il est normal 
qu’un bilan porte sur les apprentissages completes plutot que sur ceux qui sont en 
voie de realisation. Enfin, lorsqu’il s’agit d’etablir un bilan, il est generalement trop 
tard pour se demander a quel moment de l’apprentissage l’etudiant a eprouve des 
difficultes. Par contre, cette derniere information peut etre utile dans le cas d’une eva¬ 
luation formative ou encore de ce qu’il est convenu d’appeler une evaluation « micro- 
sommative » (Scallon, 1992). Alin de mieux comprendre les raisons d’une difliculte 
au niveau d’un objectif terminal, il peut alors etre utile de s’assurer que tous les pre- 
requis sont bien maltrises. Le degre de maitrise de chaque objectif intermediaire peut 
nous renseigner sur les moyens de corriger une difficulte. 
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2.2.4 Echantillonnage des items et tableau de specification 

Certains instruments de mesure, en particulier les examens, doivent etre administres 
a periode fixe afin de dresser un bilan des apprentissages de 1’eleve. Cette evaluation 
ne repond a aucun besoin particulier de la part de 1’enseignant ou de 1’eleve, mais 
elle correspond a une exigence administrative Ceci ne signilie pas que 1’enseignant 
ne soil pas interesse de temps a autre a effectuer un bilan des apprentissages de ses 
eleves pour son propre compte. Mais ce bilan se ferait probablement de faijon fort 
differente. Par exemple, 1’enseignant pourrait decider d’eliminer de tels bilans les 
items qu’il considere comnie reussis depuis longtemps par une grande majorite des 
eleves. Pour certifier un cycle d’apprentissage, cependant, la couverture de la matiere 
devra etre exhaustive, meme si elle porte sur des points pour lesquels 1’enseignant est 
deja assez bien informe. 

Le bilan, qu’il corresponde a une exigence administrative ou pas, se doit 
d'etre representatif. Ce qui est representatif peut differer selon 1’usage qui sera fait 
du bilan en question. Lorsqu’il s’agit de certification cependant, cette definition doit 
etre stricte. L’enseignant a peu de marge de manoeuvre quant a 1’univers des situa¬ 
tions qu’il peut echantillonner pour son examen. Afin d’assurer la comparability des 
resultats entre classes, les enseignants de cinquieme primaire, par exemple, devront 
tirer leurs questions d’examen d’un meme ensemble Ce ne seront pas les memes 
questions, mais elles devraient, dans la mesure du possible, constituer des ensembles 
paralleles facilement comparables et congruents avec le programme d’etudes com- 
mun a tous les eleves. 

L’echantillonnage est I’un des outils a la disposition de I’enseignant pour 
construiie son instrument de mesure Tout comnie 1 ’echantillonnage des sujets (voir cha- 
pitre 6, section 2.2.2), 1’echantillonnage des questions peut prendre plusieurs formes : 

1. Echantillonnage aleatoire simple. Chaque question a une chance egale d’etre 
choisie. 

2. Echantillonnage stratifie. Le test entier comporte des questions appartenant a 
un objectif dans une proportion qui correspond a I’importance de cet objectif 
dans la matiere a couvrir. 

3. Echantillonnage par grappes. L’echantillonnage, dans ce cas, ne se fait pas par 
question, mais par objectif, car le nombre d’objectifs a couvrir est extreme- 
ment grand. 

4. Echantillonnage hierarchique. L’echantillonnage se fait en deux etapes : 
(a) d’abord les objectifs et ensuite (b) les questions a 1 ’interieur des objectifs 
Ces methodes d’echantillonnage sont decrites au moyen des quatre schemas de 

la figure 1.5. La methode aleatoire simple signifie que chaque item a une chance egale 
d’etre choisi. La methode stratifiee est egalement une methode aleatoire. Elle est par- 
ticulierement utilisee lorsque le nombre d’items a choisir au depart est relativement 
faible et que 1’on veut s’assurer que les items se retrouveront dans notre echantillon 
dans les memes proportions que dans le domaine d’ou ils ont ete tires. Par exemple, si 
33 % des exercices fails en classe ont porte sur la physiologie et 50 % sur l’anatomie, 
I’examen devrait refleter cette distribution. La methode par grappes et la methode hie¬ 
rarchique impliquent une selection des objectifs. Lorsqifun objectif n’est pas choisi au 
hasard, aucun item lie a cet objectif ne se retrouve dans 1’examen. Dans la methode par 
grappes, tous les items touches par les objectifs choisis seront retenus. Dans la methode 
hierarchique, un choix au hasard des items parmi les objectifs deja choisis permettra 
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Figure 1.5 — Techniques d'echantillonnoge des questions 

d’en restreindre le nombre total. Cette derniere methode d’echantillonnage des items 
s’avere particulierement utile lorsque le contenu de la matiere a couvrir est foil vaste. 

II est important de noter que settles les deux premieres techniques d’echan¬ 
tillonnage permettent, avec un nombre suffisamment grand d’items, d’echantillonner 
toute la matiere. Avec les deux derniers types d’echantillonnage, certaines parties de 
la matiere seront necessairement omises. Cet inconvenient n’est pas majeur lorsqu’il 
s’agit d’un examen qui fait suite a une serie d’examens partiels. Cette methode 
d’echantillonnage est caracteristique des examens de fin d’annee Par contre, les 
bilans plus frequents (fin d’etape) ne peuvent omettre completement un objectif. 

Le tableau de specifications est un moyen utilise depuis longtemps pour s’as- 
surer que 1’echantillonnage des questions d’examen est veritablement representatif de 
la situation qui a prevalu en salle de classe ou encore des exigences decrites clans le 
programme d’etudes. II prend generalement la forme d’un tableau de contingence a 
double entree, la premiere etant constitute du contenu, la seconde du niveau taxono- 
mique des objectifs mesures. Un grand soin est pris pour que la proportion des items 
d’examen corresponde etroitement a 1’importance relative du contenu et du niveau 
taxonomique du programme d’etudes. Le tableau 1.3 presente un exemple de tableau 
de specifications pour un examen de geographic. 

Le tableau de specifications correspond a un echantillonnage stratifie. Dans 
1’exemple de 1’examen de geographic du tableau 1.3, la stratification s’est effectuee 
en tenant compte du contenu (geographic humaine, politique ou physique) ainsi que 
du niveau taxonomique (connaissance, comprehension). En principe, la repartition 
des items d’examen selon ces deux caracteristiques doit refleter 1’importance consa- 
cree en classe, en termes de temps d’etude ou d’enseignement. Si 10 % du temps 
en classe a ete consacre a la comprehension de la geographic politique, 10 % des 
50 questions d’examen (5 questions) devraient porter sur cette matiere. A defaut de 
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Tableau 1.3 — Exemple de tableau de specifications : 
nombre et pourcentage d'items dans chaque categorie 



Niveau taxonomique 

Total 

(onnaissance 

Comprehension 

Geographie humaine 

10 = 20% 

5=10% 

15 = 30% 

Geographie politique 

10 = 20% 

5 = 10% 

15=30% 

Geographie physique 

10 = 20% 

10 = 20% 

20 = 40 % 

Total 

30 = 60 % 

20 = 40 % 

50 = 100 % 


trouver autant de questions, il est toujours possible d’ajuster la ponderation de I’exa- 
men de maniere a rendre plus representatif le score total. Plutot que cinq questions 
d’un point chacune, ce pourraitetre une question de deux points et une autre de trois 
points sur la geographie politique. 

D’autres caracteristiques que le niveau taxonomique ou le contenu peu- 
vent etre employees pour etablir un tableau de specification. Le type de production 
(convergente ou divergente), le format d’items (choix de reponses ou reponse elabo- 
ree) peuvent egalement entrer en consideration. Neanmoins, 1’exemple precedent est 
sans doute plus representatif de ce qui se passe en contexte scolaire. En effet, l’orga- 
nisation habituelle des programmes d’etudes favorise plutot ce genre de stratification. 

2.3 L'evaluation criteriee 

2.3.1 Definition 

La mesure criteriee regroupe un ensemble de procedures permettant une prise d’in¬ 
formation detaillee a propos de 1’apprentissage d’un sujet. Ces procedures ont en 
comrnun de mieux definir et de nrieux controler les criteres quantitatifs et qualitatifs 
de la performance, tels que : 

• les aspects de la presentation d’une tache ; 

• les conditions de realisation d’une tache ; 

• les niveaux d’exigence pour la realisation d’une tache. 

La mesure criteriee permet d’affiner la prise d’information de I’enseignant a 
propos des apprentissages de ses eleves et le rend ainsi plus apte a comprendre les 
raisons de leurs difficultes. La planification de l’enseignement en est des lors facilitee. 
Plusieurs techniques de specification de domaine permettent de construire des instru¬ 
ments de mesure criteriee. Voici une liste de techniques que nous allons presenter de 
maniere detaillee : 

• l’objectif enrichi ; 

• 1’analyse des concepts ; 

• la theorie des facettes. 

II existe plusieurs autres techniques de mesure criteriee (Roid et Haladyna, 

1982). Chacune se refere a une conception particuliere de ce qu’est un instrument de 
mesure. II est done necessaire de se familiariser avec plusieurs de ces techniques si 
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Ton veut etre capable d’employer adequatement la mesure criteriee dans une grande 
variete de situations didactiques. 

L’objectif specifique donne souvent lieu a une telle marge d’interpretation 
clans la redaction des taclies d’examen qu'il devient difficile de considerer celles-ci 
coniine appartenant au meme domaine. Prenons l’exemple de l’objectif specifique 
suivant : «• A I’aicle de la regie, mesurer les dimensions d’tine figure geoinetriqtie ». 
Plusieurs situations fort differentes peuvent etre construites pour verifier la maitrise 
de cet objectif. Considerons les facteurs qui peuvent intervenir : 

• le type de figure geometrique : parallelogramme, triangle, cercle ; 

• la nature de la dimension : explicite (le cote d’un cart e, d’un triangle) ou impli- 
cite (la diagonale d’un cane ou la hauteur d’un triangle clans certains cas) ; 

• 1’orientation de la figure dans l'espace plan ; 

• les caracteristiques particulieres de la figure : le type de quadrilatere (carre, 
rectangle, losange, parallelogramme, trapeze); le type de triangle (equilateral, 
isocele, rectangle, scalene, etc.) ; 

• la quantite et le type d’information founds au depart. 

Dans le cas du triangle, on peut imaginer une diversite de situations mettant 
en oeuvre cette tache. La figure 1.6 presente une serie d’items bases sur le meme 
objectif. Tous ces items sont parfaitement congruents avec l’objectif de depart, mais, 
de maniere evidente, cliaque item fait intervenir des capacites fort differentes, selon 
le type de triangle clioisi. 

L’item 1 porte sur un triangle pour lequel une hauteur et une base sont deja 
tracees sans indiquer quel segment de droite est en fait la base et quel segment est 
la hauteur. Un tel exercice permet de determiner si l’eleve differencie la base de la 
hauteur et s’il sail prendre ses mesures de maniere adequate. L’item 2 laisse le soin a 
l’eleve d’identifier lui-meme base et hauteur. Toutefois, ce triangle ne presente pas de 
difficulte particuliere comme les deux qui suivront. II serait difficile de generalise!' que 
l’eleve sait mesurer la base et la hauteur d’un triangle a paitir d’items comme le n° 3. 
Celui-ci presente un cas particulier de triangle : le triangle rectangle. Dans ce triangle, 
deux bases et deux hauteurs correspondent a I’un des deux cotes de Tangle droit. Ce 
type d’exercice presente une difficulte pailiculiere qui permet de mesurer le degre de 


Objectif a evaluer: 

A I’aide de la regie, mesurer la base et la hauteur d'un triangle. 


item 1 




item 2 



item 4 



Figure 1.6 — Exemples d'items se referont au meme objectif 
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generalisation des notions de base et de hauteur. L’item 4 presente un triangle scalene 
dans lequel une des bases se situera a l’exterieur du triangle. II est impoitant de sou- 
mettre a 1’eleve des exemples de ce type pour s’assurer que l’objectif d’apprentissage 
est atteint dans toutes les situations, notamment celles ou la hauteur ne se situe pas a 
1’interieur du triangle. Si les eleves ont ete habitues a prendre des mesures uniquement 
sur des figures telles que celles des items 1 et 2, les items 3 et 4 risquent de les derou¬ 
ter. Par contre, s’ils ont ete amenes a veritablement comprendre les concepts de base 
et de hauteur, ce changement des caracteristiques du contenu ne devrait pas etre source 
de difficultes particulieres et ils devraient Facilement generaliser leurs apprentissages. 

II existe done differentes fa$ons de concevoir destaches mesurant Fatteinte de 
Fobjectif « A I'aicle de la regie, mesarer la base et la hauteur d’un triangle ». Cer- 
taines mettent Faccent sur Faction de mesurer (la base et la hauteur etant identifiees 
au depart), d’autres sur la comprehension des concepts (trouver la base et la hauteur a 
mesurer). L’interpretation des resultats est done susceptible de changer selon le type 
de situation a laquelle on expose 1’eleve et selon les conditions dans lesquelles s’est 
effectue Fapprentissage. 

2.3.2 L'objectif enrichi 

C’est sans doute la technique la plus facile a apprendre, une fois que Fon connaTt bien 
la mesure fondee sur les objectifs. Elaboree par Popham (« amplifed objectives »), 
cette technique de specification de domaine a pour but de pallier les limites de Fob¬ 
jectif specifique en en fournissant une description enrichie. L'objectif enrichi permet 
de reduire les possibility d’inteipretation en definissant Fobjectif avec plus de rigu- 
eur. Popham (1980) a defini Fobjectif enrichi en distinguant trois pailies principales : 

1. l’enonce de Fobjectif ; 

2. un exemple d’item incluant : 

• une directive ; 

• un exemple. 

3. un complement d’information sur: 

• Fexamen (ce que l’eleve aura a faire lors du test, la nature du stimulus) ; 

• les choix de reponses ; 

• les criteres de correction. 

La figure 1.7 presente un exemple d’objectif enrichi qui permet de mieux spe¬ 
cifier le domaine des apprentissages et de mettre de Fordre dans les differentes situa¬ 
tions decrites par les items 1 a 4 de la figure 1.6. 

A partir de Fobjectif enrichi decrit a la figure 1.7, le praticien de Fevaluation 
peut rediger un grand nombre de questions. Chacune de ces questions appartiendra au 
meme domaine et il sera possible d'obtenir une mesure absolue et precise de la mai- 
trise de Fobjectif. Supposons en effet qu’un praticien de Fevaluation prepare 10 items 
a partir de la definition precedente de Fobjectif enrichi. II n’y a pas de raison de sup- 
poser que le test ainsi construit sera plus facile ou plus difficile que celui construit par 
un autre enseignant a partir de la meme description. De plus, si un eleve reussit 80 % 
des items de ce domaine, il n’y a aucune raison de supposer qu’il ne pourra atteindre 
le meme score avec un autre echantillon d’items tires du meme domaine, tel que 
specifie par Fobjectif enrichi. L’objectif enrichi nous permet done de nous pronon- 
cer avec une plus grande assurance sur le degre de maltnse et de non-maitrise d’un 
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Objectif : A I'aide d’une regie, mesurer la longueur de la base et de la hauteur d’un triangle. 

Exempled’items : 

Void une serie de triangles. Sous chaque triangle, indiquez la longueur dela base et 
la hauteur en millimetres. La base estle cote du triangle trace en gras. 

(A) (B) (C) (D) 

Base .mm .mm .mm .mm 

Hauteur .mm .mm .mm .mm 

Conditions de realisation de la performance : 

1. les triangles sont quelconques ; 

2. les triangles sont diversement orientes ; 

3. la base esttracee en gras ; 

4. le cote designant la base est determine au hasard ; 

5. la hauteur n’est pas identifiee ; 

6. le sujet dispose d'une regie graduee en centimetres et en millimetres. 

Criteres de cotation : 

1. le sujet inscrit sa reponse sur la ligne prevue a cet effet; 

2. la reponse du sujet doit etreexacte a 1 millimetre pres. 



Figure 1.7 — Exemple d'un objectif enrichi 

objectif. En effet, lorsque differents echantillons d’items servant a mesurer la maitnse 
de I’eleve sont tires d’un domaine aussi precisement defini qu’un objectif enrichi, les 
chances de variation d’un echantillon a un autre sont reduites au minimum. 

2.3.3 L'analyse de concepts 

Lorsqu’il s’agit de mesurer la maltrise d’un concept, le praticien peut souhaiter deter¬ 
miner le degre de discrimination que le sujet reussit a atteindre entre le concept etu- 
die et les concepts voisins. II peut aussi chercher a determiner dans quelle mesure 
1’apprentissage d’un nouveau concept contribue a changer la representation initiale 
du sujet ou encore une representation erronee (ou pre-concept). Le praticien peut ega- 
lement vouloir determiner a quel point le sujet est capable de generaliser un concept 
appris a 1’ensemble des situations auxquelles il peut s’appliquer. 

Dans le cas precis de la hauteur d’un triangle, plusieurs facteurs peuvent contri 
buer a ce qu’un eleve ait une mauvaise representation du concept C’est pourquoi il 
est important qu’il soit capable de faire la difference entre les caracteristiques essen- 
tielles et les caracteristiques accessoires du concept etudie L’analyse de concepts 
contribue a specifier un domaine d’items servant a tester 1’apprentissage de I’eleve. 
Le tableau 1.4 presente un exemple d’analyse du concept « hauteur d’un triangle ». 
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Tableau 1.4 — Exemple d'analyse du concept « hauteur d'un triangle » 

Caracteristiques essentielles 

1 . C'est un segment de droite 

2. II relie un sommet du triangle au cote oppose (base) 

3. II fait un angle droit avec le cote oppose a I'un des sommets du 
triangle 

Caracteristiques accessoires 

1. Le segment de droite peut etre (1) interieur au triangle, (2) exterieur 
au triangle, (3) un de ses cotes 

2. L'orientation d'un triangle n'a aucun effet sur sa hauteur ; la base 
peut etre (1) horizontale, (2) verticale, ou (3) oblique 

3. Le type de triangle : (1) equilateral, (2) isocele, (3} rectangle, ou 
(4) scalene 


L’analyse des concepts comporte quatre parties : 

1. la definition des caracteristiques essentielles ; 

2. la definition des caracteristiques accessoires ; 

3. une serie d’exemples et de contre-exemples tires de 1’enseignement ; 

4. une serie d’exemples et de contre-exemples pour revaluation (similaires a 

ceux de I’enseignement). 

L’analyse des concepts permet de s’assurer que les items porteront sur des 
situations similaires a celles vues dans I’enseignement : 1’alignement entre revalua¬ 
tion et I’enseignement est ainsi assure. El le permet aussi, si I’enseignant le desire, de 
specifier un ensemble de situations, legerement differentes de celles vues en classe, 
afin de verifier s’il y a generalisation des apprentissages. Mais il doit s’agir la d’un 
objectif bien particulier. II n’est pas equitable de mesurer ce genre d’habilete sauf 
si 1’enseignant a presente en classe certaines des generalisations possibles a 1’aide 
d’autres exemples et contre-exemples. 

Comme on peut le constater a partir de I’exemple precedent, 1’analyse des 
concepts fait plus que preciser le domaine des items Elle permet aussi d’envisager 
ceilaines erreurs conceptuelles qui peuvent etre fort utiles lorsqu’il s’agit de rediger 
des leurres pour des questions a choix multiples. Ainsi, 1’analyse des leurres permet 
d’identifier de maniere plus precise le type de difficult^ de I’eleve. Cette caracteris- 
tique particuliere de I’analyse des concepts lui confere un avantage certain sur I’objec¬ 
tif enrichi pour 1’evaluation diagnostique ou 1’evaluation formative (Haladyna, 2004). 

2.3.4 La theorie des facettes 

Guttman (1969) a elabore la theorie des facettes afin d’exercer un meilleur controle sur les 
caracteristiques des items. La theorie des facettes a d’abord ete employee pour la mesure 
des attitudes, mais depuis, son usage a ete generalise a la mesure des apprentissages. 

La specification d’un domaine d’items a I’aide de la theorie des facettes est 
analogue au choix d’un plan d’observation lors d’une recherche experimentale. Le 
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praticien choisit les facettes d’interet en fonction de ses objectifs et determine poi-^ 
chaque facette un certain nonibre de conditions ou valeurs que la f'acette peut prendre. 
Le croisement de plusieurs facettes donne lieu a un grand nombre de possibility 
d’items dont les resultats permettront de determiner la maitrise ou la non-maitrise 
d’une capacite selon les situations. Plusieurs profils de performance pourront ainsi 
etre mis au point. 

Le tableau 1.5 presente un exemple de test d’arithmetique (operation d’addi- 
tion) construit selon des facettes. II illustre le domaine d’items d'addition defini selon 
trois facettes : 

1. la presentation horizontale ou verticale de I’addition ; 

2. l’ordre de grandeur des nombres (2, 3 ou 4 chiffres) ; 

3. le type d’addition (avec ou sans retenue). 

Comme il y a deux valeurs possibles de la facette 1, trois valeurs possibles 
dans la facette 2 et deux dans la facette 3, il y a (2 x 3 x 2) = 12 combinaisons en 
tout. Le tableau 1.5 ne presente qu’un seul exemple d’item pour chaque interaction 
des differents elements des trois facettes. On peut s’imaginer cependant la facilite 
qu’il y a a construire des items criteries equivalents sur base des facettes de ce tableau 
a double entree. 

Ce modele de specification de domaine est ties pratique lorsque Ton souhaite 
etablir un profil des performances d’un sujet dans differentes situations. II est alors 
possible d’identifier le ou les elements de la ou des facettes qui posent des difficultes 
au sujet. Le tableau 1.6 presente des exemples de profils que Ton peut deduire de la 
specification de domaine du tableau 1.5. 


Tableau 1.5 — Domaine d'ifems d'addition defini selon trois facettes 


Operation d'oddition 

Presentation verticale 

Presentation horizontale 

nombres b deux chiffres 

sans retenue 

11 

±M 

81 + 12 =. 


avec retenue 

47 
+ M 

27 + 75 =. 

nombres a trois chiffres 

sans retenue 

252 
+127 

523 + 110=. 


avecretenue 

173 
+ 451 

815 + 105-. 

nombres b quatre chiffres 

sans retenue 

1342 

12113 

1 177 + 2122 =. 


avec retenue 

1578 

+8112 

8722 + 1 281 =. 
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Tableau 1.6 — Profils de performance bases sur I'analyse des facettes 



2 chiffres 

3 chiffres 

4 chiffres 

total 

avec retenue 

.72 

.72 

.72 

./6 

sans retenue 

.72 

.72 

.72 

./6 

total 

.74 

.74 

.74 

.712 


En regroupant les resultats par facettes ou combinaisons de facettes, il est pos¬ 
sible de mettre en evidence plusieurs profils de performance. L’un en fonction de 
l’ordre de grandeur de 1’addition regroupe quatre items. L’autre selon le type d’algo- 
rithme (avec ou sans retenue) regroupe 6 items. Si un eleve reussissait 6 items sur 6 
« sans retenue » et 2 items sur 6 « avec retenue », on pourrait conclure a une difficult^ 
au niveau de 1 ’application de I’algorithme de retenue. De plus, on pourrait affirmer 
que la capacite d’additionner des nombres « sans retenue » s’est generalisee a tous les 
nombres entiers, quel que soit leur ordre de grandeur. 

Le praticien poun'ait pousser plus loin I’analyse du resultat des additions avec 
retenue. Les deux additions reussies ont-elles une caracteristique en commun ? S’il 
s’avere que, dans les deux cas, il s’agit de nombres a deux chiffres, alors le probleme 
se pose non au niveau de l’algorithme d’addition avec retenue, mais au niveau de 
sa generalisation a des situations ou plus d’une retenue est possible. En effet, avec 
des nombres a trois et quatre chiffres, il est possible qu’il y ait deux retenues et 
meme trois retenues. Cette facette du probleme ne fait pas partie de la specification 
du domaine d’items. Si elle se revelait pertinente, elle pourrait etre incluse dans un 
nouvel instrument de mesure. 

La specification de domaine au moyen de facettes et 1’etude des profils de 
performance permettent d’obtenir une mesure fort pertinente dans le contexte d’une 
evaluation diagnostique ou formative. La theorie des facettes sert egalement dans le 
cas d’etudes de generalisabilite a determiner a quel point les resultats a un test sont 
stables a 1’interieur d’un univers de generalisation predefini (voir section 7 du cha- 
pitre 3). 


3. Les formats d'items 

3.1 Formats d'items pour les tests cognitifs 

3.1.1 Typologie des formats d'items 

La classification des formats d’items varie d’un auteur a 1’autre. Le tableau 1.7 pre¬ 
sente une taxonomie classique distinguant essentiellement les questions ouvertes 
et les questions fermees. Les premieres demandent aux repondants de produire la 
reponse. Les secondes demandent de faire un choix parmi un certain nombre d’alter- 
natives deja donnees. Comme nous le verrons dans le § 3.1.2, les formats fermes ont 
ete developpes pour repondre a un certain nombre de problemes lies aux exigences 
de la theorie classique des scores. La necessite de reduire la part de l’erreur dans la 
variance du score total a en effet conduit a standardise!- au maximum les modalites 
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Tableau 1.7 — Typologie des formats d'items 


Questions fermees 

Questions ouvertes 

• Questions d choix multiples 

• Questions«vrai-faux» 

• Questions d'appariement 

• Questions d reponse breve 

• Questions d reponse narrative 

• Questions demandant une performance 


de passation et de eolation des items. Aux yeux du grand public, les questions fer¬ 
mees sont d’ailleurs etroitement liees a la notion de test. Elies vehiculent avec elles 
un certain nombre de representations, souvent fausses, qui appellent line mise au 
point. 

Au sein des questions fermees, certaines distinctions plus fines peuvent etre 
faites en fonction du type de choix demande aux sujets. Les questions a clioix mul¬ 
tiples, comme leur nom 1’indique, demandent de realiser un choix parmi plusieurs 
options. Ces questions comprennent deux parties : uue amorce (ou premisse), qui pre¬ 
sente le probleme, suivie de plusieurs alternatives (choix, options...) qui sont autant 
de solutions possibles au probleme pose. Outre la solution correcte, les alternatives 
comprennent des solutions incorrectes, appelees leurres. Le nombre d’alternatives 
peut varier, mais il est souvent limite a quatre choix. 


Exemple : 

De quelle propriety d'une distribution la variance est-elle une caracteristique ? 

A. dispersion. 

B. tendance centrale. 

C. relation. 

D. localisation. 


Les questions « vrai-faux » sont, quant a elles, plus simples dans leur pre¬ 
sentation puisqu’elles comportent une seule proposition dont le sujet doit eva- 
luer la veracite. Pour repondre, celui-ci doit entourer son choix « VRAI » ou 
« FAUX » (ou parfois, « OUI-NON », ou encore, « D’ACCORD-PAS D’AC¬ 
CORD »). 


Exemple : 

Un item possede un indice de discrimination de 0,8. Cela signifie que les sujets les plus 
performanls reussiront cet item, 

VRAI FAUX 


Enfin, les questions d’apparieinent sont une forme derivee des questions a 
choix multiples. Au lieu de construire quatre questions a choix multiples (ou plus 
encore), il peut etre plus economique de ne retenir que les amorces de ces questions 
et les solutions correctes a celles-ci et de demander aux sujets de mettre correctement 
en relation les quatre amorces, appelees premisses (colonne A de 1’exemple), et les 
quatre reponses (colonne B). 
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Exemple : 


La colonne A contient une liste de poemes de lo periode romantique. La colonne B contient 
une serie d'auteurs franpais de celte periode. Associez chacun de ces poemes avec son 
auteur. Pour ce faire, notez en face du poeme, la lettre qui correspond au nom de son auteur. 


Colonne A 

. I. Le lac 

. 2. A Villequier 

. 3. Ballade a la lune 

. 4. La mort du loup 


Colonne B 

A. Victor Hugo 

B. Alfred de Musset 

C. Alfred de Vigny 

D. Alphonse de Lamartine 


Bien que rangees parmi les questions ouvertes, les questions a reponse breve 
possedent souvent des caracteristiques proches de celJes des questions fermees. Certains 
auteurs les qualifient d’ailleurs de questions « objectives » (p.ex. Ebel & Frisbie, 1991, 
p. 179). En elTet, elles demandent aux sujets defournir un mot, une phrase ou un nornbre 
qui pent etre evalue comme correct ou incorrect, sans qu’intervienne la subjectivite du 
correcteur. Les exemples suivants illustrent bien le caractere objectif de telles questions. 


Exemple : 

A. Qui a decouvert le vaccin contre la rage ?. 


B. Combien de jours y a-t-il dans une annee ?. 

C. Quelle est I'aire, en cm 2 , d'un triangle dont la hauteur est de 16 cm et la base de 

8 cm ?. 


La correction des questions a reponse courte n’est pas toujours aussi « objec¬ 
tive » que dans les exemples precedents. Certaines questions exigent un jugement 
du correcteur a propos de la qualite de la reponse. Par exemple, si la question est : 
« Donnez un synonyme du mot ainiable », la reponse se reduira a un seul mot, mais 
sa qualite devra etre appreciee par le correcteur. Dans un cas comme celui-ci, une 
certaine variability entre correcteurs peut etre observee, ce qui diminue la fidelite des 
resultats a une telle question. Les problemes lies a la subjectivite des correcteurs sont 
toutefois nettement plus importants avec les questions a reponse narrative ou a cleve- 
loppement. De telles questions offrent une grande liberte de reponse aux repondants. 
Ils peuvent en effet decider de la maniere d’aborder le probleme pose, du type d’in- 
formation a utiliser, de la tapon d’organiser leur reponse et de 1’accent a mettre surles 
differentes parties de celle-ci. Les questions a reponse narrative sont, par consequent, 
bien adaptees pour evaluer la capacite d’un sujet a organiser, a integrer et a exprimer 
ses idees. Malheureusement, la richesse de Finformation ainsi recueillie se paie par 
une complexite et une subjectivite accrues au moment de la cotation. 


Exemple : 

A. Compwez les concepfions de I’apprentissage de Piaget et de Skinner. 

B. Comment Spitz explique+il les angoisses elites * du 8e mois » ? 

C. Decrivez les etapes essentielles du developpement au cours du stade sensori-moteur. 
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Les questions, ouvertes ou fermees, qui out ete presentees jusqu’ici se carac- 
terisent par le role essentiel qu’y joue le langage, que ce soit an niveau des stimuli 
presentes au sujet, des processus mentaux que celui-ci met en oeuvre et des reponses 
qu’il produit. Pour leur part, les questions de petfonnance font intervenir le langage 
a un degre nettement moindre. Elies demandent en effet aux personnes evaluees de 
realiser une action oil le langage peut etre totalement absent (jouer un morceau de 
musique, construire un puzzle, dessiner des formes geometriques, etc.). Par nature, 
ces questions sont « ouvertes » puisque l’evalue doit produire la reponse. Elies font 
souvent intervenir un materiel plus ou moins standardise afin de permettre des com- 
paraisons et d’avoir un certain controle sur les criteres devaluation des productions. 
Les questions de performance sont particulierement interessantes pour evaluer cer- 
taines competences cognitives et certaines competences professionnelles. 

Plusieurs competences typiques d’une profession ne peuvent etre correcte- 
ment evaluees qu’a travers les performances des sujets. Comment, par exemple, eva¬ 
luer un musicien autrement que par une performance musicale ? Les performances 
demandees peuvent etre identiques a celles produites dans le cadre professionnel ou 
artistique, comme dans le cas de la performance musicale. Elies peuvent aussi repo¬ 
ser sur une situation professionnelle simulee. Par exemple, on peut demander a un 
candidat cadre d’entreprise de planifier une journee Active a partir d’un ensemble de 
contraintes donnees par I’examinateur. Lorsque 1’objectif est d’evaluer des compe¬ 
tences professionnelles, 1’accent est mis soit sur la performance manifeste du sujet, 
soit sur la production resultant de sa performance. Le psychologue d’entreprise desire 
en effet verifier si, par exemple, un candidat au poste d’agent de bureau peut dactylo- 
graphier correctement une lettre et effectuer sans erreur un classement de documents. 
II ne s’interesse pas aux processus mentaux qu’utilise le candidat pour parvenir au 
resultat. Par contre, dans les domaines cliniques et educatifs, les questions de per¬ 
formance servent avant tout de revelateur de certaines caracteristiques cognitives et 
revaluation des processus en jeu pour realiser une performance ou une production 
prend alors toute son importance. Par exemple, dans le cas particulier de tests psy¬ 
chologies cliniques, la reproduction de dessins a 1’aide de cubes colores (cubes 
de Kohs) peut servir a evaluer les capacites de raisonnement spatial. De meme, la 
reproduction differee de dessins geometriques procure des donnees utiles sur le fonc- 
tionnement de la memoire. Ici, la production n’a pas de valeur intrinseque, elle ne 
sert que d’indicateur de capacites cognitives inaccessibles a l’observation directe. De 
tels items de performance sont surtout utilises lorsque I’acces au langage est limite 
(jeunes enfants, sujets maitrisant mal la langue de 1’examinateur, adultes atteints de 
lesions cerebrales, etc,) ou lorsque la composante verbale de la competence cogni¬ 
tive visee est reduite (p.ex. 1’organisation de 1’espace, la coordination oculomanuelle, 
etc.). 

3.1.2 Question fermee ou question ouverte ? 

Le choix entre des questions ouvertes ou des questions fermees est souvent determine 
par les a priori plus que par une reelle connaissance de leurs proprietes respectives, 
De nombreux praticiens rejettent visceralement les questions fermees, accusees de 
reduire 1’apprentissage a une simple accumulation de connaissances, de negliger les 
competences cognitives les plus elevees, d’encourager le « bachotage »... Certaines 
de ces critiques sont certes fondees, mais la plupart ne temoignent que du manque 
d’information de leurs auteurs. 
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En fait, il n’y a pas lieu de decider dans l’absolu de choisir entre des ques¬ 
tions ouvertes ou des questions fermees. Aucun format n’est le meilleur « en gene¬ 
ral » Le probleme doit etre pose en d’autres termes. La veritable question est en effet: 
« quancl fcml-il utiliser tel on lei format cl'item ? ». C’est en fonction des objectifs du 
test et de ses conditions duplication qu’un format peut etre considere comme le plus 
adequat. Dans ceilains cas, des questions fermees seront plus appropriees, alors que 
dans d’autres cas des questions ouvertes seront plus pertinentes. Avant de choisir un 
format d’items, le praticien doit envisager les differentes contraintes qui doivent etre 
prises en compte. Le choix final correspondra au meilleur equilibre entre ces differentes 
contraintes. Celles-ci peuvent etre rangees en quatre categories que nous allons detailler. 

A. LES CAPACITES COGNITIVES A MESURER 

Les questions fermees ont la reputation de ne permettre de tester que les niveaux les 
plus bas de la taxonomie des objectifs cognitifs de Bloom (voir § 2.2.2). En paiti- 
culier, de nombreux praticiens croient que les questions fermees n’evaluent que les 
connaissances et non les capacites cognitives. Ils confondent en fait l’usage qui est 
generalement fait de ce type de questions et les possibilites effectives offertes par 
celles-ci. En realite, tous les niveaux de capacite cognitive peuvent etre evalues avec 
des questions fermees. De ce point de vue, les questions a choix multiples et les 
questions d’appariement offrent un potentiel rarement exploite. Les deux exemples 
suivants illustrent cette possibility d’evaluer des capacites de haut niveau au moyen 
de questions fermees (d’apres Wiersma & Jurs, 1990, p. 53) : 


Exemple : 

1. Si a et b sont des nombres entiers et que a est plus petit que b, le rapport (• + 5)/(b + 5) 
est toujours : 

A. egal a un 

B. plus grand que un 

C. plus petit que un 

D. un nombre negatif 

2. Lequel de ces processus ressemble le plus d la transformation de la glace en eau ? 

A. la dissolution d'un cube de sel dans I'eau 

B. la fusion du minerai de fer dans un haut fourneau 

C. lo combustion du bois en fumee et en cendres 

D. ('inspiration de I'oxygene et I'expiratian du diaxyde de carbone 


Comme on peut le voir, les possibilites offertes par les questions fermees sont 
plus larges qu’on ne le pense habituellement. Leurs limites sont celles de l’imagi- 
nation de leur createur. En fait, ce que mesurent les questions fermees est deter¬ 
mine plus par leur contenu que par leur format. Toutefois, il faut reconnattre que, par 
leur nature, certaines capacites ne peuvent etre mesurees par des questions fermees. 
Il est evident que les capacites dactylographiques, de meme qu’une foule d’habile- 
tes psychomotrices necessitant de l’adresse, ne peuvent etre evaluees qu’au moyen 
d’une observation directe de la performance. De meme, pour apprecier les capacites 
de redaction d’un etudiant, il conviendra de lui demander de produire un texte ecrit. 
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D’une maniere generale, lorsque revaluation veut prendre en compte la structuration 
et Pexpression de la pensee, 1’usage de questions ouvertes est necessaire. 

B. LES CONDITIONS MATERIELLES DE ['EVALUATION 

Les contraintes materielles, tant au niveau de la preparation du test que de son admi¬ 
nistration, doivent egalement etre prises en compte lors du choix du format des 
questions. Ces contraintes concernent le temps, 1’espace et le materiel. Le temps de 
preparation des questions fermees est generalement beaucoup plus long que celui 
des questions ouvertes. En effet, la presentation de plusieurs possibilites de reponses 
demande un travail de conception particulierement delicat. Ce probleme sera aborde 
plus en detail dans les § 3.1.3 a 3.1.5. Par contre, le temps de mise au point des 
questions fermees est sou vent compense par la brievete du temps de eolation. II stiff it 
en effet de comparer les codes correspondant aux choix du sujet a ceux d’un tableau 
de reference. De plus en plus, les systemes de lecture optique de protocoles peiTnet- 
tent d’automatiser cette tache Outre leur vitesse (tine centaine de protocoles peuvent 
etre lus en quelques minutes), ces systemes reduisent considerablement les risques 
d’erreur de codage et de transciiption des resultats. Les codes lus au moyen de nume- 
riseurs peuvent etre enregistres dans tine base de donnees a partir de laquelle des 
calculs de scores et des grilles de resultats peuvent etre produits ties rapidement. 

Au contraire, les questions ouvertes prennent un temps de correction nettement 
plus long et leur numerisation en vue d’un codage est ties limitee avec la technologie 
actuelle. C’est particulierement le cas des questions demandant line reponse narrative. 
Ces dernieres ont egalement comme inconvenient de demander beaucoup de temps 
au moment de la passation. Comme le font remarquer Ebel et Frisbie (1991), dans 
certains cas, les sujets passent plus de temps a rediger leur reponse qu’a reflechir au 
probleme pose. Le temps de production des reponses narratives a pour consequence 
de limiter 1’echantillonnage et 1’etendue des connaissances qu’il est possible de tester 
en line seule seance. II est alors necessaire de prevoir plusieurs moments pour le tes¬ 
ting, ce qui n’est pas toujours possible 

Enfin, certaines contraintes materielles doivent retenir 1’attention du construc- 
teur de test, Dans le cadre des evaluations scolaires ou des examens de recrutement, le 
test doit souvent etre administre collectivement dans line classe ou une salle prevue a 
cet effet. Des questions demandant des interventions repetees de 1’examinateur (p.ex. 
pour presenter du materiel ou pour poser des questions complementaires) doivent alors 
etre evitees. De meme, le deplacement hors du local d’examen, la manipulation d’ob- 
jets divers (p.ex. dictionnaire, pieces de puzzle, etc.) sont difficilement realisables. 

C. LES FONCTIONS ASSIGNEES AU TEST 

L’usage qui sera fait des resultats au test pese aussi lourdement sur le choix du for¬ 
mat des questions. Les tests dont les resultats sont utilises pour la certification ou 
la selection doivent, le plus souvent, prendre en compte d’importantes contraintes 
de temps de passation et de correction. De plus, ces tests doivent avoir une fidelite 
particulierement elevee. En effet, ils debouchent generalement sur une decision, sans 
que d’autres prises d’information soient possibles. La mesure doit done etre ties pre¬ 
cise. Pour la meme raison, le contenu de ces tests doit couvrir une etendue suffisante 
du domaine de competence vise. Ces differentes contraintes font que des questions 
fermees sont generalement choisies pour ce type de test. Leur temps de passation et 
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de collection est court, ce qui permet de poser de nombreuses questions couvrant 
largement le domaine vise. De meme, leur fidelite est bien controlee du fait de la 
standardisation des modalites de passation et du peu d’inteipretation devant interve- 
nir dans la correction. II n’est done pas etonnant de retrouver un grand nombre de 
questions fermees dans les evaluations a grande echelle et les tests internationaux de 
rendemenl scolaire (p. ex. TIMMS, PISA, P1RLS). 

Les contraintes des tests a visee formative ou diagnostique sont differentes. Le 
temps est moins contraignant. De plus, les prises d’information peuvent etre regulieres, 
ce qui diminue les exigences de fidelite et d’etendue du domaine couvert par les ques¬ 
tions. Si cette couverture est trop etroite ou si I’ei-reur de mesure est trop importante, 
une evaluation ulterieure permettra souvent de corriger l’appreciation portee sur la per¬ 
sonae evaluee. C’est ce qui se passe regulierement en milieu scolaire. Ce qui pourrait 
etre interprets comme un echec lors d’une epreuve ou d’une activite mal construite 
(question ambigue, criteres de correction inadequats, etc.) peut etre nuance par les 
evaluations suivantes. L’usage de questions ouvertes est souvent prefere dans les tests 
diagnostiques ou formatifs car elles out la reputation de permettre un recueil d’infor¬ 
mation plus riche et plus approfondi a propos des competences des sujets. Cette reputa¬ 
tion doit toutefois etre nuancee. Les questions fermees, en particulier les items a choix 
multiples, peuvent elles aussi fournir des informations diagnostiques ties interessantes. 
Si les distracteurs ont ete choisis avec soin, une analyse des erreurs peut etre realisee 
sur l’ensemble du test. Par ailleurs, la validite des questions ouvertes ne doit pas etre 
envisagee independamment de leur fidelite. Si les resultats d’une question a reponse 
narrative sont entaches par une importante erreur, cela signifie que I’epreuve a mesure 
autre chose que ce qui etait vise. Autrement dit, sa validite est ipso facto affaiblie. La 
subjectivite de la correction est ici en cause. Trop souvent, les coiTecteurs n’ont pas de 
critere de correction suffisamment precis. Ils sont alors facilement influences par des 
aspects de surface de la reponse non pertinents pour les objectifs du test (proprete, lisi- 
bilite, style d’ecriture, ordre de correction, effet de halo, etc.). Les repondants risquent 
egalement de bluffer dans les questions a reponse narrative. Ils masquent alors leur 
ignorance de I’essentiel en developpant exagerement certains points de detail qu’ils 
connaissent relativement bien. Leur reponse est alors sensee, mais non pertinente. 

Dans certains cas, la modalite de reponse peut avoir une valeur fonnative. 
Proposer aux Sieves de rSdiger leurs reponses les oblige a structure!' leur pensee et a 
exprimer leurs idSes dans une forme linguistiquement correcte. En ce sens, l’usage de 
questions ouvertes peut avoir une valeur pSdagogique. 

D. LES RISQUES LIES A LA SUGGESTION DE REPONSES 

Un des problemes essentiels des questions fermees est de suggSrer des reponses. 
Cette suggestion peut avoir des consequences indesirables qui doivent bien etre Sva- 
luSes par le constructeur d’un test. La plus importante est le risque de repondre au 
hasard (guessing). S’il s’agit d’une question « vrai-faux », le sujet a une chance sur 
deux de repondre correctement de cette maniere. S’il s’agit d’une reponse a choix 
multiples, la probabilite variera suivant le nombre d’alternatives proposees. Pour cette 
raison, les questions a choix multiples sont souvent preferees aux questions « vrai- 
faux ». L’impact du hasard est alors reduit. A condition que les leurres soient egale¬ 
ment plausibles, la probabilite de reussir une question a choix multiples comprenanl 
quatre alternatives n’est que de 1/4. Une fa^on de reduire 1’impact du hasard est de 
penaliser les erreurs. Par exemple, on accordera 2 points pour une reponse correcte, 
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0 point pour une reponse oinise, mais on retirera 1 point si la reponse choisie est 
erronee. Cette maniere de coter, a condition d’avoir ete annoncee aux repondants a 
I’avance, conduit ceux-ci a preferer l’oniission plutot que le choix de reponses au 
hasard Une autre maniere d’eviter le risque de reussite par chance est de recourir a 
des questions ouvertes a reponse breve. Par exemple, au lieu de demander de choisir 
entre quatre reponses possibles a un probleme mathematique, un espace blanc peut 
etre laisse pour inscrire la reponse. Dans ce cas, la question ouverte est aussi objec¬ 
tive que la question fermee, mais I’influence du hasard est considerablement reduite. 
De plus, la validite apparente (voir chapitre 4, section 2) est superieure. En effet, les 
sujets ont souvent une meilleure perception de la validite d’une question ouverte que 
d’une question fermee, meme si les deux evaluent la meme capacite. 

L’impact du choix aleatoire des reponses ne doit toutefois pas etre surestime. 
En effet, on observe frequemment que les sujets les plus faibles obtiennent des resul- 
tats inferieurs a ceux qu’ils auraient pu obtenir en choisissant leurs reponses au hasard. 
En d’autres termes, la strategic du choix aleatoire n’est pas appliquee systematique- 
ment par les sujets faibles. Au contraire, ceux-ci tentent malgre tout de repondre en 
s’appuyant sur certains indices de surface et tombent ainsi dans les pieges tendus par 
le constructeur du test. 

Un dernier probleme lie a la presentation des reponses est de suggerer des 
solutions fausses. Le sujet risque ainsi de memoriser une reponse erronee. Ce pro¬ 
bleme a fait l’objet de nombreuses recherches qui relevent l’importance de ce risque 
en debut d’apprentissage (Leclercq, 1986). L’eleve dont les connaissances sont en 
construction est en effet plus susceptible de retenir une reponse fausse qu’un eleve 
dont les connaissances sont deja bien structures. La presentation des reponses risque 
egalement de surevaluer certains sujets, particulierement si les questions portent sur 
des connaissances En effet, un sujet dont l’apprentissage est inacheve et encore 
mal structure peut etre incapable de produire une reponse correcte alors qu’il peut 
reconnaitre celle-ci parmi des leurres. Ce risque de surevaluation peut cependant etre 
reduit en fonction de la qualite des leurres. Le premier exemple ci-dessous com- 
prend des leurres qui peuvent etre elimines facilement par un sujet qui possede des 
connaissances historiques superficielles. Ces leurres sont en effet des reponses ties 
peu plausibles. Par contre, dans le second exemple, une plus grande maitrise des 
connaissances est necessaire pour pouvoir choisir la reponse correcte. 


Exemple : 

1. Quelle periode correspond au regne personnel de Louis XIV ? 

A. 1515a 1545 

B 1661 a 1715 

C. 1/89 a 1804 

D. 1814 a 1830 

2. Quelle periode correspond au regne personnel de Louis XIV ? 

A. 1661 a 1705 

B. 1661 d 1715 

C. 1638 a 1681 

D. 1653 d 1715 
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3.1.3 Construire des questions a choix multiples 

Nous avons vu plus haul qu’une question a choix multiples est composee d’une 
amorce, qui pose le probleme, suivie de plusieurs alternatives comprenant la solu¬ 
tion correcte et des leurres. Une troisieme composante de toute question a choix 
multiples n’avait pas encore ete mentionnee : les consignes. Celles-ci decrivent la 
tache demandee, la modalite de reponse et les regies de cotation. Une grande atten¬ 
tion doit etre accordee a la redaction des consignes. En effet, tous les repondants ne 
sont peut-etre pas fanriliers avec le format « choix multiples ». II est done neces- 
saire d’expliciter ce qui est attendu d’eux et comment ils doivent repondre. Meme 
avec des sujets habitues a ce type de format d’item, il est utile de preciser claire- 
ment comment repondre. De nombreux problemes sont ainsi evites au moment de la 
cotation (p.ex. plusieurs reponses choisies, reponses fausses indiquees au lieu de la 
reponse correcte). Enfin, les informations donnees a propos des principes de notation 
des reponses font partie d’une relation transparente et honnete avec les sujets. Elies 
permettent a ceux-ci d’ajuster leur comportement en fonction de ce qui est attendu 
d’eux. Ceci est particulierement important lorsque, par 1 ’attribution d’une note nega¬ 
tive aux reponses fausses, on veut decourager les repondants de repondre au hasard 
(voir § 3.1.2). 

La redaction des questions a choix multiples de bonne qualite est une tache 
coinplexe qui demande une excellente connaissance du domaine vise et des tech¬ 
niques de construction d’items. Pour rediger une bonne question a choix multiples, 
quelques regies de base devraient etre respectees : 

1. Avoir une conception precise des connaissances et des capacites cognitives 
qui doivent etre evaluees par les questions De nombreuses questions sont mal 
redigees simpleinent parce que leurs auteurs eprouvent de la difficult^ a deti- 
nir precisement ce qu’ils veulent mesurer. Ils ont alors tendance a rediger des 
items demandant un simple rappel de connaissances. Cc sont en effet les ques¬ 
tions a choix multiples les plus faciles a construire. 

2. Clarifier au maximum la question en separant nettement les informations a 
utiliser (p.ex., un texte docuinentaire ou les donnees d’un probleme mathema- 
tique) et la question posee. 


Exemple : 

« Lorsque nous regardons le monde dans sa globalite, il est clair que le probleme 
du developpement economique est le plus important ». 

Comment faut-il considerer cette phrase ? 

A. un jugement de valeui 

B. une conclusion scientifique 

C. un fait etabli 

D. une analogie 


Par ailleurs, plutot que de repeter certaines informations dans les alter¬ 
natives, il vaut mieux les regrouper dans l’amorce. Les deux exeinples sui- 
vants illustrent la clarification qui peut etre apportee en rassemblant plusieurs 
informations dans l’amorce. 
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Exemples : 

1. Christophe Colomb : 

A. a alteint le Nouveau-Monde a la recherche de richesses. 

B. voulait etablir une colonie sur les cotes de I'Amerique du Sud. 

C. navigua jusqu’au Nouveau-Monde pour fuir les persecutions religieuses. 

D. esperait alteindre les cotes de I'Orient par Test. 

2 Quel etait le principal objectif du voyage de Christophe Colomb vers le Nouveau- 
Monde ? 

A. la recherche de richesses 

B. I’etablissement d’une colonie en Amerique du Sud 

C. la fuite des persecutions religieuses 

D. I'alteinte des cotes de I'Orient 


3. Le choix des distracteurs est un probleme crucial. Ceux-ci doivent etre suffi- 
saniment vraisemblables sans quoi les sujets risquent de trouver les reponses 
correctes par simple elimination des alternatives invraisemblables (voir ci- 
dessus la question concernant le regne de Louis XIV). Une maniere de pro- 
ceder consiste a reperer les erreurs habituelles des eleves dans le domaine 
concerne. Dans l’exemple suivant, le choix a est une erreur d’operation 
(multiplication au lieu de division) ; le choix b est une inversion du mauvais 
nombre et le choix cl est egalement une erreur d’operation (addition au lieu 
de division). 


Exemple : 

1/4 : 2/3 = 

A. 1/6 

B. 8/3 

C. 3/8 

D. 11/12 


Les alternatives peuvent aussi etre des choix naturels. Par exemple, 
en neerlandais, un substantif peut etre masculin, feminin ou neutre. Ces trois 
genres constitueront des alternatives naturelles dans une question portant sur le 
genre de substantifs neerlandais. De meme, « present, imparfait, futur » repre- 
sentent des alternatives naturelles pour des questions portant sur les temps des 
verbes. Une autre maniere de proceder pour trouver des distracteurs plausibles 
est de reflechir aux elements appartenant a la meme categorie que la reponse 
correcte (p.ex. des animaux appartenant a la categorie des felins si la reponse 
correcte est « chat ») ou qui sont naturellement associes a cette reponse (p.ex. 
« bougie », « batterie »... si la reponse correcte est « ampoule »). 

Dans la redaction des alternatives, il y a lieu d’eviter les termes vagues (p.ex. 
« parfois », « certain », « un pen », etc.) et les formulations negatives. Ils 
sont une source d’ambigui'te et de complexite sans rapport avec ce qu’il faut 
mesurer et ils risquent d’affaiblir la validite de la question. Par exemple, d’un 
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sujet a 1’autre, le terme « parfois » est associe a une frequence d’evenements 
ties variable. La reponse choisie peut, par consequent, differer en fonction de 
1’interpretation donnee a ce terme. 

Quelques alternatives non classiques sont parfois utilisees dans Ies questions a 
choix multiples : « aucune des propositions », « toutes les propositions », « les 
propositions A et C » et ainsi de suite. Elies doivent etre employees avec pre¬ 
caution. Certains praticiens les utilisent a mauvais escient lorsqu’ils ne trou- 
vent pas d’autres alternatives. Les sujets reperent vite un tel procede et tendent 
a eliminer d’oftice cette alternative. Toutefois, bien utilisees, elles permettent 
de recueillir des informations interessantes sur la qualite des apprentissages 
(voir Leclercq, 1986, pour une discussion detaillee). 

Par ailleurs, quelques erreurs frequentes doivent etre evitees lors de la redac¬ 
tion d’une question a choix multiples Certains sujets peuvent en effet developper une 
veritable capacite (« test wiseness » en anglais) a utiliser ces vices de construction 
des questions pour reperer la reponse correcte parmi les distracteurs. Ils parviennent 
ainsi a obtenir des scores parfois eleves a des tests portant sur des domaines donl ils 
n’ont aucune connaissance. Les erreurs de construction les plus courantes sont : 

1. L’indication de la reponse correcte par une caracteristique grammaticale. Le 
pluriel et le genre des articles sont des indices frequents. Ces indices peuvent 
etre elimines assez aisement en reformulant la question. 


Exemple : 

La tarentule esl une : 

A. mammifere 

B. reptile 

C. poisson 

D. araijnee 

2 La difference de longueur et de complexity des alternatives constitue un indice 
facile a reperer par les sujets clairvoyants La solution est de construire des 
distracteurs dont la forme est plus proche de la reponse correcte. 


Exemple : 

Comment s'effectue la fecondation chez les scorpions ? 

A. par contact 

B. de maniere indirecte par I'intermediaire du spermatophore 

C. par penis et c*Tl 

D. par les pattes 


3. La repetition d’un meme terme (ou partie de celui-ci) dans Lamorce et la 
reponse corr ecte est egalement un indice. Certains sujets repondent alors sur 
base des seules associations verbales. Une solution a ce probleme est parfois 
difficile a trouver avec un format ferme. Par contre, une reponse ouverte breve 
perinet aisement d’eliminer 1’indice verbal. 
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Exemple : 

Quel genre d'ornement a ele particulierement developpe par les Arabes ? 

A. les palmetles 

B. les feuilles d'acanthe 

C. les arabesques 

D. les fleurs de lotus 


3.1.4 Construire des questions « vrai-faux » 

Nous avons vu dans la section 3.1.1 que les questions « vrai-faux » sont des propo¬ 
sitions dont le sujet est invite a evaluer la veracite. Ces questions sont plus simples a 
creer que les questions a choix multiples puisque le probleme de la construction de 
distracteurs vraisemblables est elimine. Plus exactement, le probleme se retrouve uni- 
quement dans la production des propositions fausses. Pour etre efficaces, celles-ci ne 
peuvent etre ecartees sur base du seul bon sens ou d’indices de surface. Le jugement 
concernant leur faussete doit necessiter une reelle connaissance de la matiere a evaluer. 

Avec des questions « vrai-faux », il est plus difficile d’evaluer des capacites cogni- 
tives de haut niveau. Toutefois, la coniplexite des operations cognitives que ces questions 
permettent d’apprecier est souvent plus elevee qu’on ne le pense. Trap de praticiens se 
contentent de creer des questions qui ne demandent que le rappel de connaissances ste- 
reotypees. Dans les pires cas, ces connaissances ne concement que des details triviaux. 
De telles questions offrent une image morcelee et anecdotique du savoir. Pourtant, bien 
construites, ces questions permettent d’apprecier si un eleve a reellemcnt compris les 
connaissances essentielles qui lui ont ete enseignees. Les trois questions suivantes per¬ 
mettent d’evaluer differents niveaux de connaissance du principe d’Archimede (d’apres 
Ebel & Frisbie, 1991). La premiere proposition demande le seul rappel d’une connais¬ 
sance livresque. La seconde suppose une capacite de reformuler le principe etudie. Enfin, 
la troisieme proposition fait appel a la capacite d’appliquer les connaissances apprises. 


Exemples : 

1. Un corps plonae dans un liquide subit une poussee verlicale de bas en haul egale au 
poids du liquide deplace. 

Vrai - Faux 

2. Si un objel possedanl un certain volume est enloure d'un liquide ou d'un gaz, la force de 
bas en haut qui s'exerce sur lui est egale au poids du meme volume de liquide ou de gaz. 
Vrai - Faux 

3. Lorsqu’ils sont immerges dans I'eau, un centimetre cube d'alumimum el un centimetre 
cube de fer subissent une meme force de bas en haul. 

Vrai - Faux 


Une des difficultes de la construction de questions « vrai-faux » est que le 
jugement les concernant doit etre tranche. La proposition est soit vraie, soit fausse. Sa 
veracite ne peut etre l’objet de variation ou de discussion. Ce probleme est important 
car il sous-tend l’equite et la legitimite de la mesure qui sera faite a l’aide de ces 
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questions. II est en effet inacceptable de mesurer un degre de competence a partir de 
jugements qui lie sont en realite que des opinions. De meme, il est fonde de contester 
les resultats d’un test compose de questions dont les reponses correctes ne sont pas 
defendables. Les deux exemples suivants sont des illustrations de propositions inade- 
quates pour un format « vrai-faux ». 


Exemples : 

1. Le poids d'un nuoge de pluie est leger. 

Vroi - Faux 

2. Le merite est un facteur important influengant ie salaire des employes. 
Vroi - Faux 


Dans la formulation des questions « vrai-faux », il faut generalement eviter 
des determinants comme « tous », « toujours », « aucun » ou « jamais ». Lorsque 
ces determinants sont utilises, la reponse correcte a la question est habituellement 
« faux ». En effet, il est rare qu’une affirmation ne souffre aucune exception. Il est 
vraisemblable que, dans un cas au moins, l’affirmation soit fausse. Dans le premier 
exemple ci-dessous, on ne peut exclure qu’un guerrier sioux ait manque de courage. 
Par consequent, la proposition doit etre consideree comme fausse. Par contre, le 
second exemple est un cas, peu frequent, oil l’usage de « tous » est indique. 


Exemple : 

1. Tous les Sioux etaient des guerriers courageux. 

Vrai - Faux 

2. lous les Fiydrates de carbone contiennent de I'oxygene, du carbone et des atomes 
d'Fiydrogene. 

Vrai - Faux 


Les negations sont souvent line source de confusion dans les questions « vrai- 
faux », surtout lorsque le choix est entre « oui » et « non ». Si, par exemple, la 
proposition est « il ne foul pas depasser la vi/esse de 60 km/henre en ville », le sujet 
peut entourer la reponse « non » parce qu’il pense que « non, il ne faut ejfectivement 
pas depasser la vitesse de 60 km/heure en ville »■ ^alternative « vrai-faux » reduit 
un tel risque de confusion, sans pour autant le faire disparaitre. Par consequent, il est 
preferable de toujours formuler les questions de maniere affirmative. 

Dans l’ensemble d’un test, il est preferable d’avoir un peu plus de propositions 
fausses que de propositions vraies. Les propositions fausses permettent de rnieux dis- 
criminer les sujets faibles des sujets foits (Barker & Ebel, 1981) que les propositions 
vraies. En effet, en cas de doute, les sujets sont plus enclins a accepter les propositions 
presentees qu’a les refuser. Cette inclination est appelee la tendance a l’acquiescement. 
Par consequent, au lieu d’inclure dans le test un meme nombre de propositions vraies et 
f ausses, comme le recommandent certains auteurs (p.ex. Wiersma & Jurs, 1990), il vaut 
mieux respecter un rapport de deux propositions fausses pour line proposition vraie afin 
d’obtenir un score total au test qui soit plus discnminatif (Ebel & Frisbie, 1991). 
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3.1.5 Construire des questions d'appariement 

Ce format de question est utilise moins couramnient que les deux precedents. Rappe- 
lons qu’il se presente sous forme de deux colonnes. La premiere comprend les pre¬ 
misses et la seconde les reponses. Les reponses doivent etre associees a chacune des 
premisses. Ce format a l’avantage de permettre Revaluation de nombreuses connais- 
sances en une seule question. Outre ce caractere economique, les questions d’appa- 
riement out egalement I’avantage de ne pas necessiter la creation de distracteurs. Par 
contre, la cotation est un peu plus complexe. En effet, elle ne se fait pas au niveau 
de l’ensemble de la question, mais pour chaque appariement. Par consequent, si une 
question demande de realiser quatre appariements, il faudra attribuer quatre scores 
aux reponses a cette question. 

Une bonne question d’appariement doit etre homogene. Si le contenu est trop 
heterogene, les sujets risquent de trouver des indices leur permettant de repondre 
correctement tout en ayant ties peu de connaissance du domaine evalue. L’exemple 
suivant est un cas de question trop heterogene a laquelle il est possible de repondre 
avec un peu de bon sens, mais sans aucune connaissance specifique. 


Exemple : 

. 1 Ville de lo province du Hainout 

. 2. Fleuve traversont la province de Liege 

. 3. Artiste celebre de lo province de Namur 

. 4. Industrie de la province du Luxembourg 


A. lo Meuse 

B. Felicien Rops 

C. le bois 

D. Binche 


Pour eviter ce probleme, une question d’appariement doit avoir un contenu 
homogene, c’est-a-dire se referant a un seul concept ou a une seule classe. On peut 
comparer de ce point de vue l’exemple precedent a celui qui suit. 


Exemple : 


La premiere colonne contient une liste de provinces beiges. La seconde colonne conlient 
une serie de noms de villes. Associez chacune de ces villes avec la province a laquelle 
elle appartient. 


1. Province du Hainaut 

2. Province de Liege 

3. Province de Namur 

4. Province du Luxembourg 


A. Huy 

B. Binche 

C. Neufchateau 

D. Dinant 


Les deux exemples precedents proposent autant de reponses qu’il y a de 
premisses. Une telle correspondance est deconseillee. En effet, il suffit que le sujet 
connaisse trois reponses correctes pour trouver automatiquement la quatrieme. Pour 
eviter ce probleme, il est recommande de construire des questions asymetriques : soit 
par exces de premisses, soit par exces de reponses. Il est egalement possible d’utiliser 
une meme reponse pour plusieurs premisses. 
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Exemple : 


La premiere colonne contient une liste d'evenements qui se produisent dans la vie quoti- 
dienne La seconde colonne contient une serie de lermes scientifiques qui decrivent ces 
evenements. Indiquez devanl cheque evenemenl le terme qui lui correspond. 


1 . La glace fond 

2. Les vetements sechent 

3. Les nuages se forment 

4. La pluie tombe 


A. L'expansion 

B. Lo condensation 

C. La fusion 

D. (evaporation 

E. La precipitation 


F. La radiation 


3.1.6 Construire des questions ouvertes 

Les reponses ouvertes sont souvent choisies pour des raisons de validite Dans certains 
cas, il est evident que les questions ouvertes mesurent niieux ceilaines competences 
que ne le font les questions fermees. De plus, les sujets out parfois une perception 
positive des questions ouvertes qui leur permettent de developper leurs idees et de 
detailler le raisonnement qui les a conduits a la reponse. Nous avons deja vu plus 
haut que trois formes de questions ouvertes peuvent etre utilisees : (1) les questions 
a reponse breve, (2) les reponses narratives et (3) les reponses qui demandent la pro¬ 
duction d’une performance observable Dans cette section nous allons detailler les 
deux premieres formes de questions ouvertes. 

Les questions a reponse breve sont assez proches des questions fermees. Elies 
ne sont dites ouvertes que parce que la reponse n’est pas donnee et que le repondant 
doit done la produire. Mais leur cotation peut etre aussi objective que celle des ques¬ 
tions fermees lorsqu’une seule reponse correcte est possible, coniine e’est le cas des 
questions a reponse courte. L’intervention de la subjectivite du correcteur est alors 
nulle. Ceci est vrai pour autant que la question ait ete bien construite. II n’est pas 
toujours simple de creer des questions dont la reponse est unique et tient en un seul 
mot ou en un seul nombre. Pour parvenir a un tel resultat, il est preferable de com- 
mencer par penser a la reponse puis d’elaborer une question qui doit deboucher sur 
cette reponse. Pour eviter toute variability au moment de la correction, il est egale- 
ment important de preciser dans la question certaines caracteristiques qui doivent etre 
presentes dans la reponse. Ainsi, lorsque la reponse attendue est numerique, il faudra 
annoncer dans la question la precision du resultat attendu (nombre de decimates de 
precision) et I’eventuelle unite de mesure (centimetre, litre...) a mentionner dans la 
reponse. Plusieurs erreurs de construction doivent egalement etre evitees. Il ne faut 
pas donner des indices a propos de la reponse correcte dans la formulation de la ques¬ 
tion. En particular, les espaces prevus pour noter les reponses doivent etre de meme 
longueur pour toutes les questions d’un meme test. II est frequent que les sujets infe- 
rent la reponse exacte en se basant sur l’espace laisse pour repondre. 

Parfois, plusieurs reponses courtes sont regroupees sous un meme probleme. 
Par exemple, il peut s’agir de la description des symptomes d’un malade suivie de 
questions relatives au diagnostic, au pronostic et au traitement. Les questions peuvent 
etre totalement independantes les unes des autres, mais elles peuvent aussi etre liees 
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comine dans Fexemple precedent. L’etudiant qui echoue a la premiere question sur 
le diagnostic ne peut donner les reponses attendues aux questions suivantes portant 
sur le pronostic ou le traitement. S’il ne pose pas un diagnostic coiTect, il ne peut 
en effet proposer le traitement adapte. Generalement, de telles questions emboitees 
devraient etre evitees car elles defavorisent indument les sujets qui echouent aux pre¬ 
mieres questions, ce qui n’est pas le cas pour les sujets qui echouent aux dernieres 
questions. Par exemple, si on demande a un eleve de mesurer la hauteur et la base 
d'un triangle, puis d’en calculer l’aire, une erreur de mesurage entrainera ipso facto 
l’erreur du calcul de l’aire, meme si l’eleve connaTt la formule de I’aire du triangle et 
est capable de l’utiliser correctement. Dans ce cas, on risque de conclure erronement 
que cet eleve est incapable de calculer correctement l’aire d’un triangle, alors qu’il 
manque seulement de precision iorsqu’il mesure des longueurs. Dans certains cas tou- 
tefois, les questions emboitees sont tout a fait justifiees. L’exemple issu du domaine 
medical en est une bonne illustration. L’etudiant en medecine a qui l’on presente un 
tel ensemble de questions doit necessairement toutes les reussir. En effet, il n’est pas 
admissible qu’un medecin ne reponde que partiellement aux problemes qui se posent 
a lui : le patient est soigne correctement ou non. II serait discutable d’accorder des 
points a un etudiant qui propose un traitement correct pour soigner une maladie sur 
la base d’un diagnostic errone. 

Les questions a reponse narrative apparaissent, quant a elles, comme les 
prototypes des reponses ouvertes. Elles sont bien adaptees pour evaluer des com¬ 
petences de haut niveau comme la resolution de problemes complexes, 1’integration 
des connaissances, 1’esprit ciitique et la creativite. Ces questions sont souvent per- 
cues comme plus faciles a construire que les autres formats de question. En fait, 
quelques regies devraient etre respectees pour leur creation si Ton veut eviter certains 
deboires au moment de la cotation. En particular, il est necessaire de donner aux 
repondants des informations precises et completes a propos de ce qui est attendu 
d’eux. De nombreux problemes surgissent au moment de la correction de reponses 
narratives simplement parce que les sujets ont inteiprete differemment la question 
posee. C’est pourquoi, lorsque les conditions le permettent, il est preferable de trans- 
mettre au candidat a I’avance les criteres de correction et la grille d’evaluation des¬ 
criptive qui servira a le noter. Lorsqu’il n’y pas suffisamment de transparence dans la 
notation et les criteres de notation, qui faut-il blamer : le constructeur de la question 
ou 1’examine ? Puisque le constructeur est souvent celui qui corrige, il lui est facile 
d’attribuer toute erreur d’interpretation a l’examine : « il n’a lien compris a ce qu’on 
lui demandait ! ». 

Enfin, les termes utilises dans la redaction des questions devraient toujours 
faire reference aux capacites cognitives que l’on souhaite evaluer : « expliquer... », 
« comparer... », « interpreter... », « critiquer... », « evaluer... ». Si Ton desire limi¬ 
ter les reponses a une certaine longueur ou obliger les sujets a respecter une certaine 
structure, il est possible de proposer des questions a reponse conlrainte (Gronlund, 
1991, p. 76). Dans ce cas, la question contient un certain nombre de directives 
concernant la forme de la question. Par contre, les questions a reponse developpee 
laissent toute liberte aux repondants quant a la longueur et a la structuration de leur 
reponse. Une telle latitude permet plus de creativite et une approche plus large du 
problenre pose, nrais elle est source de complexity au moment de la correction surtout 
si le constructeur de tests n’a fait aucun effort de transparence au niveau des criteres 
d’evaluation. 
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Exemples de questions a reponse contrainte : 

1. Expliquez en une demi-page, les avantages des questions ouvertes. 

2. Un professeur de sciences veut, au moyen d'un test papier-crayon, evaluer les aptitudes 
de ses eleves a interpreter des donnees scientifiques. 

- Decrivez les etapes que devrail suivre ce professeur, 

- Donnez des arguments pour juslifier chacune de ces etapes. 


Exemple de question a reponse developpee : 

Vous etes professeur de sciences. Planifiez de maniere complete une evaluation sommative 
des acquisitions de vos eleves. Detaillez chacune des procedures que vous pensez suivre, 
les instruments que vous souhaitez utiliser et les raisons de vos differents choix. 


3.2 Formats d'items pour les questionnaires 

L’evaluation de traits de personnalite, d’attitudes, d’interets, de valeurs fait appel a 
certains formats d’items particuliers. Dans le cas de la personnalite, des questions 
ouvertes demandant une performance sont souvent utilisees. Les techniques projec- 
fives en sont Frustration la plus connue. Ces techniques consistent en un ou plu- 
sieurs stimuli (images, figurines, propositions...) a partir desquels le participant est 
invite a produire des associations verbales, un recit, un dessin ou une constmction. 
Ces productions sont considerees comme des manifestations de la structure profonde 
de la personnalite d’un individu. L’infomiation recueillie de la sorte est souvent riche, 
mais dilficile a coter. Des systemes precis de cotation ont ete mis au point pour cer- 
taines techniques projectives, en paiticulier pour le test de Rorschach (p.ex. Exner, 
1974). Ces systemes demandent une bonne formation des correcteurs et leur applica¬ 
tion rigoureuse prend beaucoup de temps. Ils garantissent toutefois une fidelite et une 
validite satisfaisantes des resultats, pour autant que les praticiens les respectent, ce qui 
n’est pas toujours le cas. Une etude faite par Exner et Exner (1972) aupres de 750 
membres de la Society for Personnality Assessment et de VAmerican Psychological 
Association revele en effet une grande diversite de pratiques de cotation du Rorschach. 
Vingt pour cent des praticiens avouent ne faire aucune cotation objective et interpreter 
les reponses subjectivement sur base de leur experience personnelle. Et quatre prati¬ 
ciens sur cinq reconnaissent personnaliser leur cotation. Par ailleurs, la majorite des 
autres techniques projectives reposent sur une standardisation insuffisante des moda- 
lites de passation et de cotation. 11 en resulte des problemes serieux de fiabilite et de 
validite des resultats qu’elles permettent de recueillir (Klopfer & Taulbee, 1976). 

Les questionnaires en auto-passation et les echelles de cotation (questionnaires 
remplis par un observateur et non par le sujet lui-meme) sont nettement plus stan¬ 
dardises que les tests demandant une performance. La validite et la fidelite de leurs 
resultats sont, par consequent, mieux assurees. Toutefois, nous verrons plus loin que 
les questionnaires presentent egalement certaines faiblesses specifiques qui peuvent 
reduire la validite des resultats qu’ils permettent de recueillir. Trois formats d’items 
sont habituellement utilises dans les questionnaires : les items clichotomic/ues , les 
items categoriels bipolaires et les items a choix force. Nous allons en detailler les 
caracteristiques. 
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3.2.1 Les items dichotomiques 

Un item dichotomique est constitue d’une proposition par rapport a laquelle le sujet 
doit exprimer son accord ou son disaccord. Le choix peut etre entre « d’accord-pas 
d’accord », « oui-non », « vrai-faux » ou toutes autres paires de categories opposees. 


Exemples : 

1. J'ai peu d'appelit OUI - NON 

2. J'aime parler avec les personnes de mon entourage OUI - NON 

3. Je n'ai aucun projet OUI - NON 

4. J'ai envie de mourir OUI NON 


La construction d’items dichotomiques est, en apparence, assez simple. Ce for¬ 
mat souleve pourtant plusieurs problemes dont certains sont difficiles a resoudre. Le 
premier probleme tient a la formulation des propositions. Dans I’exemple ci-dessus, 
une des propositions est formulee de maniere negative («• je n’ai aucun projet »). 
Cette formulation complexifie la tache du repondant. Doit-il repondre « NON, je n’ai 
aucun projet » ou « OUI, je n’ai aucun projet » ? Le premier choix correspond a une 
formulation plus naturelle que celle qui correspond au second choix. Pourtant, le sujet 
qui est d’accord avec la proposition doit choisir « OUI ». L’utilisation des modalites 
de reponse « vrai-faux » ou « d’accord-pas d’accord » peut reduire ce probleme. 

Un second probleme est lie au caractere tranche du choix demande au sujet. Si 
la formulation de I item est trop vague, il peut hesiter a choisir une des alternatives. 
Par exemple, si la proposition est « je suis une personae relativenient inquiete », I’in¬ 
terpretation du terme « relativenient » peut varier et entrainer un choix qui depende 
de cette inteipretation. Par consequent, de tels termes doivent etre evites afin que les 
choix proposes soient identifies de maniere claire et identique par tous les sujets. 

Un troisieme probleme pose par les items dichotomiques decoule du phenomene 
de desirabilite sociale. De nombreux sujets out en effet tendance a masquer leur veri¬ 
table choix et a selectionner, au contraire, le choix oppose par ce que ce dernier est plus 
valorise socialement. Cette tendance peut decouler d’un refus des sujets de se voir tels 
qu’ils sont et/ou d’une crainte du regard que le psychologue peut porter sur eux. Des 
propositions telles que « je suis grassier », « je ne pense qua inoi » ou « j’aime la 
violence » risquent ainsi de faire 1’objet d’un choix negatif meme si elles correspondent 
effectivement aux caracteristiques des sujets concernes. Pour eviter ce biais du a la 
desirabilite sociale, on cherche generalement a creer des propositions moins transpa- 
rentes. Elies doivent etre des indicateurs valides tout en etant acceptables socialement. 
Par ailleurs, certains questionnaires incluent des items specialement destines it reperer 
1’ impact de la desirabilite sociale. Par exemple, le Minnesota Multi phasic Personality 
Inventoty (MMPI) comprend 15 propositions que quasi tous les sujets admettentcomme 
vraies, tout en les considerant peu flatteuses. Un item comnie « nies inanieres de table 
ne sont pas toujours aussi bonnes a la niaison qu ’elles ne le sont en coinpagnie » peut 
raisonnablement etre considere comme peu flatteur tout en etant vrai pour tout le monde. 
Pourtant, ceilaines personnes repondent systematiquement « NON » it de telles propo¬ 
sitions. Ces personnes demontrent ainsi 1’influence qu’a la desirabilite sociale sur leurs 
choix. On peut en deduire que les reponses a L ensemble des items du questionnaire out 
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ete biaisees par ce facteur. Malheureusement, l’usage de tels items pour diagnostiquer 
I’impact de la desirabilite sociale n’est reellement efficace qu’avec des sujets peu sub- 
tils. La majorite des individus ne se laissent generalement pas abuser parces items. De 
plus, le diagnostic est fait apres coup. La validite des resultats au questionnaire est alors 
mise en question sans qu’il soit possible de I’ameliorer. Nous verrons plus loin que les 
items a choix force peuvent constituer une solution a ce probleme. 

Un dernier probleme pose par les items dichotomiques concerne le calcul du 
score global. Generalement, les reponses aux items sont cotees 1 ou 0. La valeur 1 
indique la presence de la caracteristique mesuree et la valeur 0 son absence. En fonc- 
tion des propositions, une reponse «• OUI » peut done etre cotee 1 ou 0. Revenons 
a l’exemple des quatre propositions ci-dessus qui servent a evaluer la depression. 
Repondre « OUI » a la premiere est un signe de depression et doit done etre cote 1. 
Par contre, repondre « OUI » a la seconde proposition indique une humeur normale 
et doit etre cote 0. Le plus souvent, le resultat total est calcule en additionnant les 
scores aux differents items. Par consequent, chaque item a un poids identique dans le 
score total. Cette fa<;on de f’aire a l’avantage de la simplicity. Sa pertinence est tou- 
tefois discutable. Tous les items n’indiquent pas un meme degre du trait mesure. Par 
exemple, une reponse positive a l’item « j’ai pen d’appetit » n’indique pas une meme 
intensite de depression qu’une reponse positive a I’item « j’eti envie cle mourir ». Une 
solution a ce probleme consiste a ponderer les resultats des items et d’accorder ainsi 
un poids plus grand aux items en fonction de I’intensite du trait qu'ils permettent de 
reveler. La procedure la plus ancienne pour ponderer les scores aux items a ete pro- 
posee par Thurstone (1928). Cette procedure est appelee la technique des intervalles 
approximativement egaux (« equal-appearing inteival technique »). Elle consiste a 
placer chaque item sur le continuum a mesurer et a definir une echelle approximative 
d’intervalles, generalement appelee « echelle de Thurstone ». Bien qu’encore decrite 
dans plusieurs ouvrages recents (p.ex. Dane, 1990), la procedure de Thurstone a sur- 
tout une valeur historique. Elle est avantageusement remplacee par les procedures 
developpees dans le cadre des modeles de reponse a l'item (Hambleton & Swamina- 
than, 1985, pp. 115-120; voir egalement le chapitre 7). 

3.2.2 les items cotegoriels bipolaires 

Face a certaines propositions, il est possible de donner des reponses plus nuancees 
que « d’accord » ou « pas d’accord ». Des categories intermediaires peuvent etre defi- 
nies entre ces deux poles. L’ensemble des choix constitue des categories ordonnees. 
Celles-ci forment ce que I’on appelle une echelle de Likert. Le nombre de categories 
peut varier, mais se limite generalement a cinq, comme I’a d’ailleurs suggere Likert 
(1932). Ces categories sont : « en total disaccord », « pas d'accord », « neutre », 
« d } accord », « en total accord ». D’autres termes equivalents peuvent etre utilises. 
Chaque categorie se voit attribuer respectivement le score 0, 1, 2, 3 et 4. 


Exemples : 

« Letude des statistiques est necessaire d lo formation du psychologue 

pas du tout d'accord D pas d'accord dl neutre CH d'accord D tout d fait d'accord D 

«J'ai des difficultes d m'endormir » 

jamais CH rarement [ZD parfois CD souvent CD Ires souvenl CD 
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Comme les items dichotomiques, les items categoriels bipolaires sont sen- 
sibles a l’influence de la desirabilite sociale. Mais ils soulevent aussi des problemes 
specifiques comme la tendance a donner une reponse centrale. Pour contrecarrer cette 
tendance, on peut choisir de limiter le nornbre de categories a quatre. Par ailleurs, les 
items categoiiels bipolaires sont plus complexes a construire que les items dichoto¬ 
miques. La definition des differentes categories de reponses n’est pas toujours simple. 
Leur nornbre et leur gradation peuvent poser probleme. 

3.2.3 Les items a choix force 

Ce format a ete cree pour tenter de resoudre un des problemes poses par les formats 
precedents : 1’influence de la desirabilite sociale sur le choix de la reponse. Le principe 
du choix force consiste a presenter simultanement au sujet plusieurs items (des phrases, 
des qualificatifs...) et a lui demander de choisir parmi ceux-ci celui qui lui conespond 
le mieux et/ou celui qui lui correspond le moins. Les items entre lesquels le sujet doit 
choisir possedent un meme degre de desirabilite sociale. On postule que si le sujet doit 
choisir l’item qui lui correspond le moins entre deux items peu desirables socialement, 
son choix sera generalement sincere. On formule le meme postulat lorsque le sujet 
doit choisir I’item qui lui correspond le mieux entre deux items egalement desirables 
socialement. La technique du choix force permet un reequilibrage des scores car elle 
oblige le sujet a faire des choix qu’il aurait esquives si les items avaient ete presentes 
dans un format classique On evite ainsi une depression des scores lies aux items peu 
desirables socialement et une inflation des scores lies aux items desirables socialement. 

II existe plusieurs variantes dans la presentation des items a choix force. La 
presentation la plus simple consiste a proposer des paires d’items qui chacun mesure 
un des poles d’une echelle bipolaire et a demander au sujet de choisir l’item qui lui 
correspond le mieux (ou le moins). Mais la presentation la plus courante des items a 
choix force est sous la forme d’ensembles de quatre items appeles des tetrodes. 

La construction des tetrades peut se faire de differentes manieres. Une pre¬ 
miere technique consiste a reunir dans une meme tetrade deux indicateurs valides 
d’un trait et deux indicateurs non valides de ce meme trait. Un des deux indicateurs 
valides est desirable socialement alors que 1’autre ne Test pas. II en va de meme pour 
les deux indicateurs non valides. Les sujets sont invites a choisir dans la tetrade la 
caracteristique qui leur conespond le mieux et celle qui leur correspond le moins. 
Pour chaque tetrade, les sujets doivent done donner deux reponses. L’exemple suivant 
est une illustration d’une telle tetrade : 


Exemple : 

Me correspond le plus 

Me corresp 

6. irritable 

□ 

□ 

7. fiable 

□ 

□ 

8. communicatif 

D 

□ 

9. sans gene 

□ 

□ 


La creation de ce type de tetrade se fait en plusieurs etapes La premiere etape 
consiste a observer ou a interviewer des personnes qui possedent le trait a mesurer a un 
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degre ties e'leve ou ties faible. Sur la base de ce recueil d’informations, des indicateurs 
du trait sont produits. II s’agit de qualificatifs, de substantifs ou de courtes phrases qui 
sont associes a l’absence ou a la presence du trait. La validite de ces terrnes est ensuite 
evaluee par des experts et par le calcul d’un index de validite (voir chapitre 4). Sur 
la base de ces evaluations, des paires d’indicateurs sont constituees. Toutes compren- 
nent un indicateur valide et un indicateur non valide de meme niveau de desirabilite. 
On veille a constituer des paires d’indicateurs egalement desirables et d’autres egale- 
ment indesirables. Une fois ces paires realisees, on peut alors construire des tetrades 
en groupant chaque fois une paire d’elements desirables et une paire d’elements non 
desirables. Dans l’exemple ci-dessus, « liable » et « communicatif » sont deux carac- 
teristiques egalement desirables socialement. La premiere s’est revelee etre un indica¬ 
teur valide de l’extraversion lors d’etudes preliminaires, mais pas la seconde. Quant a 
« sans gene » et « irritable », il s’agit de caracteristiques egalement indesirables. La 
premiere est un indicateur valide de 1’extraversion, mais pas la seconde. 

Un sujet quia tendance a se presenter sous un jour trop favorable a autant de 
chance de choisir un indicateur valide qu’un indicateur non valide. Lorsqu’il choisit 
un qualificatif desirable, mais non valide, ce choix n’influence pas le score total. 
En realite, ce choix a pour elfet de deprimer le score a l’une des echelles du test. II 
empeche en effet un autre choix, valide celui-la, qui aurait pu augmenter le score a 
cette echelle. L’impact de la desirabilite est des lors reduit. Le meme phenomene se 
produit lorsqu’un sujet tend systematiquement a se devaloriser. 

Une autre technique de construction des tetrades, plus simple que la pre- 
cedente, a ete utilisee par Gordon (1951). Elle consiste a grouper dans une meme 
tetrade des items mesurant quatre variables differentes. Deux de ces items sont desi¬ 
rables socialement et les deux autres sont peu desirables socialement, comme dans 
l’exemple ci-dessous : 


Exemple : 

Me correspond le plus Me correspond le mains 


1. est altentif aux outres 

□ 

□ 

2. s'enerve facilement 

□ 

□ 

3. est exigeant avec luimeme 

□ 

□ 

4. se decourage vite 

□ 

n 


Le sujet est invite a choisir Litem qui lui ressemble le plus et celui qui lui 
ressemble le moins. La cotation des reponses est ponderee. On attribue deux points a 
l’itern qui correspond le plus au sujet, zero point a l’item qui lui correspond le moins 
et un point a chacun des deux items qui n’ont pas ete choisis. Cette ponderation s’ex- 
plique par le fait que le sujet a implicitement ordonne tous les items. Les items choi¬ 
sis occupent les positions extremes alors que ceux qui n’ont pas ete choisis occupent 
une position intermediate. 

Bien qu’assez attractifs en apparence, les items a choix force peuvent soulever 
de serieux problemes d’interpretation des scores (Hicks, 1970). C’est particulierement 
le cas lorsque le test est ipsatif. Le terme ipsatif a ete propose par Cattell (1944) pour 
designer les tests dans lesquels la valeur du score a une variable depend de la valeur 
des scores aux autres variables. Dans ce cas, la comparaison des scores est purement 
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intra-individuelle. Aucune comparaison interindividuelle n’est possible. Cette situa¬ 
tion peut se presenter avec les items a choix force lorsque Ton attribue un point a 
l’item clioisi et zero point aux autres. Dans ce cas, Lelevation du score a une echelle 
va de pair avec une diminution des scores aux autres echelles. La somme des scores 
aux differences echelles reste, par consequent, toujours constante. 

Pour illustrer ce phenomene, nous allons prendre l’exemple d’un test mesu- 
rant deux variables, Lanxiete et la depression, chacune au moyen de deux items 
(tableau 1.8). Dans le format a choix force, ces items sont presentes par paire, dont 
un item evalue Lanxiete et l’autre la depression. Dans chacune des deux paires propo- 
sees, le sujet doit choisir Litem qui lui correspond le mieux. Dans notre exemple, le 
sujet a choisi dans chaque paire Litem qui mesure Lanxiete. Comme un choix est cote 
un point, le score du sujet en anxiete est egal a 2. Quaul a son score en depression, il 
est necessairement egal a 0 puisque le choix des items mesurant Lanxiete a empeche 
toute obtention de points en depression. Le score de 2 en anxiete et de 0 en depres¬ 
sion sont des mesures ipsatives et nous pouvons settlement affirmer que le premier 
score est superieur au second. Par contre, nous ne pouvons pas comparer ces scores 
a ceux de la population de reference puisque le score de 0 en depression depend du 
score en anxiete. Pour pouvoir comparer le score en depression du sujet a celui de la 
population, il est necessaire de mesurer la depression independamment de Lanxiete. 
Pour ce faire, il suffit de presenter les memes questions dans un format qui n’entrame 
pas Lipsativite des scores. Dans notre exemple, les quatre memes items sont presentes 
dans un format bipolaire a trois possibilites de choix. Ces choix sont cotes 0, I ou 2. 
Dans ce format, les reponses a un item sont independantes des reponses aux autres 
items, ce qui permet une evaluation plus nuancee du meme sujet. On constate en effet 


Tableau 1.8 — Exemple de reponses aux memes questions presentees 
dans le format « choix force » et dons le format « bipolaire ». 


Questions au format « choix force » 

1. a. Je suis inquiet 

0 

2. a. Jesuis triste 

□ 

b. Je manque d'appetit 

□ 

b. J'ai peur de mal faire 

0 

Score brut en anxiete : 2 

Score brut en depression : 0 


Questions au format« 

bipolaire » 

1. Jesuis inquiet 



Jamais D Parfois 0 

Souvent 0 

2. Je manque d'appetit 
Jamais 0 Parfois 0 

Souvent 0 

3. Je suis triste 



Jamais D Parfois 0 

Souvent D 

4. J'ai peurde mal foire 
Jamais D Parfois D 

Souvent 0 

Score brut en anxiete: 4 

Score brut en depression : 2 
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que si le score du sujet reste eleve en anxiete, son score en depression est a present 
superieur a zero. Cet exemple illustre clairement l’impact possible du choix d’un 
format d’item sur les scores et leur inteipretation. 

Tous les items a choix force ne produisent pas necessairement des mesures 
ipsatives. Si, par exemple, les items d’une paire representent les deux poles d’une 
merne variable, le choix du sujet n’influencera le score que de cette seule variable. Ce 
choix n’aura aucun impact sur les autres variables. D’ailleurs, la somme des scores 
aux differentes variables ne sera pas constante. Dans ce cas, les scores obtenus a cha- 
cune des echelles pourront etre compares a ceux de la population Ces scores seront 
normatifs et non ipsatifs. 

Enfin, les items a choix forces peuvent produire des mesures partiellement 
i.psalives. C’est le cas de l’lnventaire de Personnalite de Gordon dont un exemple 
de tetrade a ete donne plus haut. En ponderant les choix cornme le propose Gordon, 
on evite que la somme des scores aux differentes variables soit une constante. On 
introduit ainsi une certaine variability interindividuelle des scores. Toutefois, la pon- 
deration des scores ne supprime pas leur interdependance. Cette interdependance aura 
un impact inevitable sur les correlations entre les items, ce qui mettra en question les 
analyses factorielles realisees sur la base de telles correlations Les mesures partiel- 
lement ipsatives doivent, par consequent, etre interpretees avec discernement. Leur 
usage reste malgre tout interessant car elles se sont revelees eflicaces pour reduire la 
tromperie et leur validity predictive est apparue, dans certains cas, relativement elevee. 

4. L'adaptation et ^utilisation de tests 
dans plusieurs langues et cultures 111 

11 est parfois necessaire de construire de multiples versions d’un test que l’on doit 
administrer en plusieurs langues. Deux options se presentent alors au constructeur 
de test : 

1. Le constructeur de test peut choisir de concevoir et assembler plusieurs tests 
en differentes langues, s’assurant que chaque test, peu importe la langue 
dans laquelle il est redige, est construit selon des specifications similaires. Le 
concepteur s’assurera ainsi que le contenu de chaque test se fonde sur le merne 
echantillonnage du contenu et qu’il n’y a pas de differences importantes quant 
a la maniere de repondre aux questions. 

2. Le constructeur pourra egalement opter pour la traduction d’un seul et merne 
test en plusieurs langues en s’assurant que la traduction ne change ni la diffi¬ 
culty du test ni aucune de ses autres qualites d’instrument de mesure. Lorsque 
la traduction ne suffit pas a assurer (’elaboration de tests equivalents, le 
constructeur devra prendre les moyens necessaires pour « adapter » le test 
en fonction des caracteristiques linguistiques et culturelles des populations de 
sujets auxquelles il s’adresse. 


(l, La presente etude a ete ecrite sous contrat pour I'tffice de la qualite de la responsabilitc en educa¬ 
tion (OQRE). Les opinions exprimees sont celles des auteur(e)s et ne sont pas necessairement celles 
de l’OQRE, Plusieurs des notions de cette section sont expliquees dans les autres chapitres du livre. Si 
celles-ci vous posent des difficultes, il est recommande de prendre connaissance de cette section une 
fois que vous aurex termine la lecture des autres chapitres. 
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L’adaptation des tests se situe entre la simple traduction de tests deja exis- 
tants et la conception de nouveaux tests dans line autre langue qui donneront des 
resultats equivalents a ceux du test d’origine. La traduction ne se preoccupe pas 
de 1’effet de la transposition de questions d’examen dans line autre langue sur la 
mesure des habiletes. La conception de nouveaux tests, quant a elle, consiste a 
developper simultanement des versions similaires de tests dans au moins deux lan- 
gues en se fondant sur un certain nombre de regies a respecter (p.ex. le programme 
d’etudes). 

Hambleton (1999, p. 3) defi nit 1’adaptation de test de la maniere suivante : 

L’adaptation d’im test comporte plusieurs decisions qui consistent d’abord a deter¬ 
miner si le test pourrait mesurer le me me concept dans line culture et line langue 
diffe rentes, puis a choisir les traducteurs et les modifications a apporter a la prepa¬ 
ration du test qui doit etre utilise dans line autre langue, jusqu’d, en fin de processus, 
modifier le test et verifier son equivalence dans la version adaptee. 

L’adaptation de tests possede plusieurs avantages. Sireci (in Hambleton, 1999, 
p. 2) en identilie au moins trois : 

1. Lorsque les connaissances et les habiletes a evaluer sont les memes, V adapta¬ 
tion permet de s’assurer que le contenu et la structure du test sont relativement 
les memes d’une langue a l’autre. 

2 II peut etre plus efficace d’adapter un test deja existant que de developper de 
nouveaux tests dans l’autre langue : la redaction, la revision, la mise a l’essai 
des tests prennent beaucoup de temps et necessitent beaucoup d’efforts. 

3. L’adaptation d’un test constitue dans bien des cas un moyen bien plus simple de 
demontrer 1’equivalence d’epreuves administrees dans des langues differentes. 

Mais 1’adaptation des tests ne va pas egalement sans difficulte. Hambleton 
(1999, p. 3) regroupe en trois grandes categories les sources d’erreur et d’invalidite 
liees a l’adaptation des tests : 

1. les differences linguistiques et culturelles ; 

2. les problemes techniques et les difficultes methodologiques ; 

3. 1’interpretation des resultats. 

II faut cependant noter que ces sources d’erreur ne sont pas uniquement l’apa- 
nage de l’adaptation des tests, mais qu’elles se retrouvent egalement au niveau de la 
traduction et de la conception. Dans la traduction, ces sources d’invalidite sont tout 
simplement ignorees car l’on assume que la traduction des items, si elle est bien faite, 
donnera lieu a des items non biaises. Dans la conception de tests, on tente de creer 
des tests equivalents en developpant des formes similaires du test dans des langues 
differentes. Cependant, il y a peu de moyens de verifier l’absence de biais dans ce 
contexte. 

L 'assemblage ou developpement de formes similaires d’un meme test en plu¬ 
sieurs langues est preferable lorsque la distance culturelle est telle que l’adaptation 
est impossible ou rendue excessivement difficile. Jensen (1980, in Beller, Gafni & 
Hanani, 1999, p. I) a introduit le concept de bornes culturelles d’un test (« cultural 
reducedness ») dans les termes suivants : « distance culturelle sur laquelle un test 
conserve en grande partie les memes proprietes psychometriques de fidelite, validite, 
de correlation item-total et d’ordre de difficulte des items ». 
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4.1 Equivalence des tests adaptes 

Trois types d’equivalences peuvent etre envisages dans 1’adaptation d’un test. Le type 
d’equivalence recherche possede un impact direct stir la fa^on d’elaborer les versions 
en differentes langues d’un test. Van de Vijver & Tanzer (1997) distinguent les trois 
categories suivantes : 

1. Equivalence conceptuelle. Elle signifie que le meme concept est mesure dans 
chaque population, peu importe si la mesure du concept se fonde ou non 
sur des instruments de mesure identiques. L’equivalence conceptuelle serait 
demontree si des tests de langues differentes possedaient les caracteristiques 
suivantes : 

a) L’eneur de mesure (estimee par le coefficient de coherence interne ou 
alpha de Cronbach) associee au score total de chaque test est la meme 
pour toutes les versions du test. 

b) La validite des instruments de mesure, telle que mesuree par differents cri- 
teres, est la meme pour toutes les versions. Par exemple, dans le cas d’un 
test d’habilete en lecture, on pourrait s’assurer qu’il y a une correlation 
similaire entre la reussite au test et un critere externe, telle que les resultats 
scolaires, quelle que soit la langue dans laquelle le test d’habilete en lec¬ 
ture est redige. On ne devrait pas observer de differences de correlations, 
que le test soit redige en russe, en allemand ou en italien. Un autre critere 
pourrait etre la validite predictive du test envers le taux de reussite aux 
etudes secondaire et post-secondaue. L’habilete a lire, telle que mesuree 
par' chacune des versions du test de lecture, devrait predire avec la meme 
precision la reussite a des etudes superieures, peu importe la langue dans 
laquelle le test a ete redige. 

c) L’etude des correlations entre les mesures obtenues aux differentes versions 
du test et des mesures similaires (validite convergente) ou differentes (vali¬ 
dite discriminante) devrait demontrer les memes patrons de correlations 
(Cronbach et Meehl, « nomological network », 1955). 

d) Une analyse factorielle confirmatoire devrait indiquer que les versions du 
test component le meme nornbre de facteurs et que les items de chacune 
des versions se regroupent de la meme fa 9 on. 

2. Equivalence d'unite de mesure. Ce niveau d’equivalence est obtenu lorsque 
les echelles de mesure de chaque version du test possedent les memes unites, 
mais que leurs points d’origine respectifs - la position du zero sur l’echelle de 
mesure - ne peuvent etre determines de maniere absolue. 

3. Equivalence scalaire. Ce niveau d’equivalence est obtenu lorsque les resultats 
a chaque version du test possedent les memes unites de mesure et les memes 
origines. 

L’equivalence conceptuelle est le niveau d’equivalence requis pour assurer un 
minimum d’equite entre les populations visees par les differentes versions du test. Si 
elle ne permet pas de comparer les resultats obtenus aux deux versions du test, elle 
permet de s’assurer que les deux versions mesurent les memes habiletes, par exemple, 
des habiletes en mathematiques. Cependant, il n’est pas possible avec ce genre d’equi¬ 
valence de determiner si les versions sont de meme difficulty et par consequent de 
comparer les resultats obtenus aux deux versions. 
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Pour obtenu' une equivalence d’unite de inesure ou line equivalence scalaire, 
le choix doit se porter sur des versions adaptees. Cependant, la recherche d’une equi¬ 
valence scalaire est fort complexe et suppose que toutes les sources possibles de biais 
ontete controlees, ce qui est fort difficile et onereux. Van de Vijver & Tanzer (1997, 
p. 267) resument ainsi les possibilites, maisaussi les limites de l’adaptation : 

D’un point de vite statistique, les adaptations sonl les moins commodes. 11 
n’est pas possible d’effectuer des comparaisons directes parce qu’elles ne 
peuvent se fonder sur le meme instrument. On pourrail restreindre la com- 
paraison des scores aux seuls items communs dans tons les groupes cultu¬ 
re! s. Mais ceci ne pent const inter une solution entierement satisfaisante parce 
cpte le reste des items est laisse de cote. De plus, lorsque /’ensemble d’items 
communs est petit, ceux-ci ne parviennent pas a couvrir adequatement toute 
I’etendue du concept et la comparaison des scores sera affectee par une faible 
validite ecologique et une faible generalisabilite a des mesures plus appro- 
priees du concept. Heureusement, il existe des techniques statistiques, comme 
la theorie de la reponse a I’item (e.g., Hambleton & Swaminathan, 1985 ; 
Hambleton, Swaminathan & Rogers, 1991), qui foci I item la comparaison des 
traits ou capacites d’une personae meme lorsque les items d’un instrument ne 
sont pas tout a fait identiques. Lorsque de telles techniques sont employees, 
/’ equivalence scalaire demeure realisable. Si I’on souhaite etudier I’equiva¬ 
lence conceptuelle, le recours aux modeles d ’equation structurale pent egale- 
ment etre envisage (cf. Byrne, 1989, 1994). L’analyse factorielle confirmatoire 
permet de verifier la qualite des structures factorielles malgre le recours a 
des stimuli qui ne sont pas semblables dans des groupes differents (Byrne, 
Sliavelson, & Mat hen, 1989). 

En resume et dit simplement, il existe deux conditions minimales pre'requises 
pour esperer atteindre I’equivalence scalaire : 

• il doit y avoir deux versions du meme test dont une grande proportion des 
items sont communs : il s’agit d’items traduits et adaptes , 

• les items communs sont administres a des echantillons represenlalifs des popu¬ 
lations d’interet : habituellement il s’agit de sujets de chaque groupe linguis- 
tique. 

Pour parvenir a obtenir 1’equivalence scalaire dans de telles conditions, il faut 
s’assurer de controler toutes les principales sources de biais. Or, celles-ci sont nom- 
breuses et font intervenir toute une serie de dispositifs, tant avant, pendant, qu’apres 
l’administration des versions dans les differentes langues du test que Ton souhaite 
adapter. 

4.1.1 Differences culturelles/linguistiques offectont les scores 

L’adaptation de tests doit prendre en compte les differences culturelles et linguis- 
tiques pouvant affecter les resultats. Voici quelques exemples de facteurs de diffe¬ 
rences culturelles/linguistiques auxquels il faut porter attention : 

• Equivalence des concepts. Le concept mesure (p.ex. le degre de proactivite) 
doit posseder la meme signification dans les langues qui out servi a traduire 
le test, meme si les comportements en jeu different a cause des differences 
culturelles associees a chaque langue. 
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• Format du test. II faut verifier qu’il n’y a aucime difference entre les sujets 
des differents groupes linguisliques quant a leur degre de familiarite avec un 
certain type d’items (choix de reponse, reponse ouverte). 

• Limite de temps. Les textes traduits dans une autre langue peuvent etre plus 
longs. Lorsque le test est de duree limitee. les derniers items pourraient etre 
biaises du fait qu’ils ne peuvent etre tennines faute de temps II faut s’assu- 
rer que lous les repondants, peu importe la langue dans laquelle le test a ete 
administre, ont, a competences egales, les memes possibility de terminer le 
test. 

4.1.2 Focteurs techniques et methodologiques 

Hamblelon (1999) identilie cinq categories de facteurs pouvant affecter la validite des 
resultats de tests adaptes : 

• Le test lui-nieme. En preparant les specifications du test, le constructeur doit 
eviter le choix de certains formats d’items, de stimuli, de mots de vocabu- 
laire, de structures de phrase qui peuvent etre plus difficiles a traduire que 
d’autres. 

• Le choix et la formation des Iradncteurs. Le traducteur devra de preference 
bien connaltre la langue, mais aussi la culture de la population dans laquelle le 
test est traduit. Le traducteur doit egalement connaltre la matiere sur laquelle 
le test va porter et etre au courant des situations qui, dans le cas de questions a 
choix multiples, pourraient constituer des indices pour les eleves particuliere- 
ment habiles a passer des tests (« test wiseness »). Comme il peut etre difficile 
de trouver des traducteurs possedant une telle combinaison de competences, il 
faut assurer une certaine formation au traducteur (sur la construction de tests 
par exemple) on encore confier la traduction a une equipe, comprenant une 
personne experte de la matiere du test et une autre, sensibilisee aux problemes 
de redaction de questions de tests. 

• Le procede de traduction. Il peut s’agir d’une traduction unidirectionnelle 
(« forward translation » : de la langue source a la langue cible) ou d’une 
traduction bidirectionnelle (« backward translation » : de la langue source a 
la langue cible et de la langue cible a la langue source). Dans le cas de la tra¬ 
duction unidirectionnelle, il est preferable de confier la traduction a au moins 
deux traducteurs et de s’assurer que les differences de traduction qui survien- 
nent seronl ensuite discutees afin d’eviter les biais. Dans le cas de la traduction 
bidirectionnelle, la comparaison des versions de langue source (celle avant et 
celle apres la traduction) devrait permettre de deceler de possibles biais. La 
principale difficult^ avec la seconde methode vient de ce que la comparaison 
de Leflicacite de la traduction dans la langue cible s’effectue en comparant 
deux versions de la langue source (originate et traduite), sans consideration 
directe de la langue cible. Par exemple, pour comparer l’eflicacite de la traduc¬ 
tion fran^aise d’un test source redige en anglais, ce sonl deux tests anglais qui 
seronl compares : le test source et le test anglais traduit a parlir de la version 
fran 9 aise du test source. Une telle methode, meme si elle permet d’identilier 
des erreurs de traduction, n’est pas tout a fait etanche. Un traducteur « conser- 
vateur » pourrait presenter des traductions tres litterales, done peu adaptees au 
genie de chaque langue et satisfaire malgre tout aux exigences de la traduction 
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bidirectionnelle. Plutot que de traduire en deux phrases en IVanqais, line phrase 
longue, mais lout a fait acceptable en anglais, il pourra opler pour la traduction 
en une seule phrase en francais. Or, une telle traduction ne posera pas neces- 
sairemenl de difficultes majeures lors d’une traduction bidirectionnelle, mais 
elle pourrait etre plus difficilement comprehensible par les lecleurs de langue 
fran§aise moins familiers avec le type de construction syntaxique ulilisee par 
le traducleur. 

• Recours anx jugements d’experts pour adapter les tests. Tons les procedes de 
traduction necessitent que la version traduite soit revue par une personne habi- 
tuee au style d’ecriture des repondants vises afin d’aplanir toute difficulle inu¬ 
tile de langage. (voir aussi Beller et al„ 1999, pp. 5-6 et pp, 10-13), Ceci est 
particulierement indique' dans le cas des populations pour lesquelles il existe 
d’importanles particularites dialectales (p.ex. les Franco-Ontariens et les Aca- 
diens au Canada). 

• Les protocoles d'analyse de dounces pour etablir I’equivalence. Il existe plu¬ 
sieurs protocoles experimentaux pour etablir (’equivalence entre les resul- 
tals obtenus a plusieurs traductions du meme test. Sired (1997) identifle 
les trois suivants : (1) I’utilisation de groupes unilingues inde'pendants pour 
chaque version ; (2) I’utilisation de groupes unilingues apparies sur un cri- 
tere externe quant au trait mesure ; (3) I’utilisation de groupes bilingues. 
Chacun de ces devis possede ses avantages et ses inconvenients. Dans le 
cas du protocole pour groupes apparies, la principale difficult^ consiste a 
trouver un critere d’appariement valide pour les deux groupes. Dans le cas 
du devis pour groupes bilingues, les principales difficultes viennent de ce 
que les individus bilingues ne sont pas necessairement representatifs des 
groupes unilingues et qu’ils peuvent differer grandemenl entre eux quant 
a leur niveau de bilinguisme. Selon Hambleton (1999), le protocole des 
groupes unilingues independants semble celui qui convienne le mieux a 
condition de s’appuyer sur les modeles de reponse a I’item afin d’idenli- 
lier clairement les items demontrant un fonctionnement differentiel (voir 
chapitre 5, section 7). 

4.1.3 Focteurs affect ant /'interpretation des resultats 

Plusieurs facteurs peuvent alfecler l’inlerpretation des resultats obtenus au moyen de 
tests adaptes. Les deux facteurs suivants ont e'te' identifies par Hambleton (1999) en 
rapport avec les enquetes internalionales sur le rcndement : 

• La similarite des programmes d’etudes. L’interpretation des resultats ne saurait 
avoir de sens que pour la portion des tests qui porte sur des aspects simjlaires 
du cuiTiculum. Une etude detaillee des programmes d’etudes est essentielle 
pour bien comprendre les resultats. 

• La motivation. L’interpretation des resultats doit tenir compte de la faqon dont 
les eleves sont motives a repondre aux tests. L’interet qu’ils eprouvent pour un 
texte a lire ou pour le sujet d’une composition ecrite peut avoir une influence 
sur l engagemenl cognilif de l’eleve dans la tache et sur sa persistance a I’ef¬ 
fort. 11 pent etre utile de savoir si les versions traduites d’un meme texte sont 
aussi interessantes pour chacun des groupes. 
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4.1.4 Soins a apporter a la traduction 

La traduction pose tin defi particular au niveau de l’adaptation Belief et al. (1999, 
p. 9) identifie une serie de caracteristiques souhaitables de la traduction de textes : 

Pour trach/ire tin texte, /’accent cloil etre mis stir les points suivcmts : la preci¬ 
sion de la traduction, la preservation de la fluidite, de la richesse et du genie 
de la langue en einployant des concepts fatniliers dans la langue cible, tout 
en demeurant coherent avec /’usage destermes apparaissant dans le texte (...) 
L'une des critiques du testing transculturel vent qu’un texte traduit ne puisse 
vehiculer le me me sens et preserver le me me niveau de difficulte que le texte 
d 'origine. 

International Test Commission (2010, p. 2) a formule une serie de regies qui 
nous guident quant aux meilleures procedures a suivre dans ce contexte. Nous rete¬ 
nons en particular les iignes directrices suivantes : 

• D. 1 Les constructeurs/editeurs de tests devraient s’assurer que le processus 
d'adaptation prend pleinement en consideration les differences culturelles et 
linguistiques des populations pour lesquelles les versions adaptees du test sont 
prevues. Nous avons deja parle de ces mesures dans la section portant sur les 
facteurs techniques et methodologiques. 

• D.2 Les constructeurs/editeurs de tests devraient fournir tout renseignement 
permettant de demontrer que la langue utilisee dans la formulation des direc¬ 
tives, des criteres et des items aussi bien que dans le manuel d’accompagne- 
ment, est appropriee a toutes les populations de cultures et de langues pour 
lesquelles le test a ete developpe. 

En rapport avec la ligne directrice D.2, il est important de s’assurer de [’equi¬ 
valence des textes traduits au moyen des indicateurs suivants : (1) difficulte des mots ; 
(2) lisibilite ; (3) usage grammatical ; et (4) style d’ecriture et ponctuation. 

Allalouf, Hambleton et Sired (1999) out par ailleurs identifie quatre sources 
de fonctionnement differentiel (FDI en abrege - en anglais DIF pour Differential 
Item Functionning) pouvant se produire dans la traduction d’items. Celles-ci peuvent 
egalement s’appliquer a la traduction de textes : 

• Changement dans la difficulte des mots et des phrases. Par exemple, si certains 
mots sont plus frequemment employes dans une langue que dans une autre, la 
comprehension de lecture s’en trouve changee dans le test traduit. 

• Changement au niveau du content/. Le sens d’un mot peut etre different, non 
settlement a cause d’un probleme de traduction, mais aussi parce qu’un mot 
peut avoir plus d’un sens dans l’une des langues. 

• Changement au niveau du format. Lorsqu’un mot ne possede aucun equivalent 
dans 1’autre langue, il faut alors employer plusieurs mots pour decrire le meme 
mot dans 1’autre langue. 

• Differences quant a la pertinence culturelle. Certains textes, meme correctement 
traduits, peuvent ne pas avoir la meme pertinence ou susciter le meme interet 
dans un groupe linguistique. Tel qu'indique par Ercikan (1999, p. 2) : « Une 
bonne traduction doit refleter non settlement le sens de I'item source, mais aussi 
preserver la meme pertinence, le meme interet intrinseque et la meme familiarite 
du contentt de I’item ; sinon, ce que I'item mesure risque d'etre (there ». 
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4.2 Lignes directrices POUR (/ADAPTATION de tests 

Afin d’iviter toute source de biais dans l’ivaluation au moyen de tests adaptis, 
les professionnels de la mesure et de revaluation en psychologie et en educa¬ 
tion ont formule un certain nombre de standards a respecter. Les deux regies 
suivantes, drees des « Normes de pratique du testing en psychologie et en edu¬ 
cation » (Institut de recherches psychologies, 2003, 118-119) et traduites des 
« Standards for Educational and Psychological Testing » (American Educational 
Research Association, American Psychological Association, National Council on 
Measurement in Education (1999) sont particulierement importants pour l’adap- 
tation des tests : 

• Standard 9.7. Lorsque !e test est traduit d’unc langue a une autre, les methodes 
utilisees pour etablir l’equivalence de la traduction devraient etre decrites. Des 
preuves empiriques et logiques devraient etre fournies concernant la fidelite 
et la validite des inferences faites a partir des scores aux tests traduits pour 
1’usage privu aupres du groupe linguistique evalue. 

• Standard 9.9. Lorsque des versions d’un test en plusieurs langues sont suppo- 
sies etre comparables, les concepteurs du test devraient presenter la preuve de 
leur comparability 

En 2010, V International Test Commission rendait publique une nouvelle edi¬ 
tion de ses lignes directrices concernant Padaptation des tests en education et en 
psychologie. Ces lignes directrices constituent le plus important document concernant 
I’adaptation des tests. Elies sont trop nombreuses pour etre inumiries ici, mais elles 
sont devenues une reference incontournable pour tout ce qui concerne {’adaptation 
de tests. 

4.3 Etapes a suivre 

S’inspirant de la premiere version des lignes directrices de !’ International Test Com¬ 
mission , Hambleton, Sired et Robin (1999) ont decrit une sequence de huit etapes 
dans l’adaptation de tests : 

1. S’assurer de la pertinence de l’examen pour loutes les populations visies. 

2. Determiner si une traduction est souhaitable. 

3. Choisir et former les traducteurs. 

4. Traduire et adapter l’examen. 

5. Reviser la version adaptee de l’examen. 

6. Conduire une mise a I’essai de la version adaptee. 

7. Conduire une etude exhaustive de la version adaptee. 

8. Documenter chacune des etapes de developpement de la version adaptee. 

II faut noter que certaines de ces etapes se retrouvent egalement dans le deve¬ 
loppement de formes equivalentes au moyen de l’assemblage de questions. L’itape 8, 
portant sur la documentation des etapes de developpement des versions assemblies, 
est particulierement importante dans un contexte ou seule (’equivalence conceptuelle 
des deux versions assemblies peut etre clairement dimontrie. 
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4.4 Indicateurs de qualite de l'adaptation 

Beller et al. (1999, pp. 10-13) a identifie une serie d’indicateurs de la qualite d’une 
adaptation. Elle a applique ces indicateurs avec succes aux versions multilingues d'un 
test israelien d’entree a l’Universite. Ces indicateurs sont les suivants : 

1. Effet differentiel des reponses an hasard. Ceci se produit, notamment, lorsque 
tous les eleves n’ont pas le temps de terminer le test ou lorsque, pour des rai¬ 
sons culturelles, certains eleves sont portes a repondre au hasard. Par exemple, 
ceci pourrait se produire si les eleves d’un groupe linguistique choisissaient 
de repondre au hasard aux dernieres questions du test par manque de temps, 
la version traduite du test dans leur langue etant legerement plus longue ou 
exprimee dans une langue plus difficile. 

2. Analyse d’items et fonctionnement differentiel. Les items de chaque version 
devraient etre equivalents en termes de difficulty, de discrimination et de fide¬ 
lity. De plus, la probability de reussir chaque item ne devrait pas etre diffe- 
rente, a niveau egal d’habilete, pour des eleves s’exprimant dans des langues 
differentes. Si, pour une raison ou l’autre (notamment de traduction), une 
question s’avere plus difficile ou plus facile pour les sujets d’un groupe en 
particular de ineme niveau d’habilete que les sujets d’autres groupes, alors il 
y a fonctionnement differentiel de l’item (FD1). Le FDI est aborde en detail 
dans le chapitre 5 section 7 et dans le chapitre 7, section 6.1 

3. Fidelite. Les resultats calcules a partir de versions adaptees devraient presenter 
la meme fidelite de coherence interne (telle que calculee par l’alpha de Cron- 
bach), autrement dit, la meme erreur aleatoire de mesure. 

4. Equivalence conceptuelle. Cel!e-ci peut etre demontree de plusieurs manieres : 
analyse factorielle (exploratoire et confirmatoire), modeles structuraux lineaires 
ou par I’etude des reseaux nomologiques. 

5. Validite. La validite concomitante et la validite predictive devraient etre les 
memes, peu importent les versions des tests employees. 

6. Biais au niveau du test. Le tenne -■< biais » fait reference a une erreur syste- 
matique dans la validite conceptuelle et predictive associee a l’appartenance a 
un groupe particular. C’est le cas si une version adaptee s'avere systematique- 
ment plus difficile chez les gargons d’un des groupes linguistiques du fait du 
theme choisi dans les questions du test. 

4.5 Traduction ou adaptation ? 

L’adaptation de tests en plusieurs langues off re done une alternative a f assemblage de 
tests en plusieurs langues ou a la simple traduction Peu importe la procedure choisie 
ou la methodologie privilegiee, il est important que le processus soit bien document^ 
et transparent. Si les resultats doivent servir a comparer des groupes culturellement et 
linguistiquement differents, il est important de demontrer que de tellcs comparaisons 
sont possibles et que les versions traduites, adaptees ou assemblees en parallele auto- 
risent de telles comparaisons. Comme nous venous de le voir, les exigences a satis- 
faire pour developper des tests metriquement equivalents sont complexes et si la plus 
grande prudence s’impose dans la comparaison de resultats de groupes, elle s’impose 
encore plus lorsqu’il s’agit de comparer des resultats individuels. 
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5. Conclusion 

Comme nous l'avons souligne an debut de ce chapitre, la creation des items est un 
moment crucial dans la construction d'un test. La qualite de ce travail determine la 
valeur de 1’instrument dans son ensemble. Pourtant. depuis plus de cinquante ans, 
les chercheurs out concentre beaucoup plus leur attention sur 1’etude des proprietes 
metriques des items que sur la melhodologie de leur construction. Par consequent, 
la creation des items reste le plus souvent basee sur 1'intuition et le bon sens. Les 
praticiens complenl alors sur les analyses slalistiques ullerieures pour debusquer les 
mauvais items S’ils onl de la chance, les items possederont dans leur majorile les 
proprietes voulues et ils pourront rapidement passer a la phase suivante du travail de 
mise au point du test. Mais, souvent, les items faibles seront trop nombreux. II sera 
alors necessaire, soit de creer un certain nombre de nouveaux items, soil de recons- 
truire l’ensemble des items selon de nouveaux principes. Cette situation est couteuse 
en temps et en energie Une economic substantielle serait realisee en apportant plus 
de soin a la creation de l’ensemble initial d’items. Dans le present chapitre, nous 
avoirs indique quelques-unes des pistes methodologiques permeltant de garantir une 
certaine qualite des items. II ne s’agit cependant pas de recettes miraculeuses. Toule 
personne qui a eu l’occasion de construire un test sait que des items apparemment 
bien construits peuvenl reserver de mauvaises surprises sur le terrain. Mais un travail 
de creation melhodique perrnet de limiter au maximum le nombre des items defec- 
tueux. La mise a l’essai jouera, quant a elle, un role de condole de qualite cn nous 
revelant les inevitables faiblesses de quelques items. Dans le chapitre 5, nous aborde- 
rons en detail les differenles techniques statistiques permettant d’evaluer les items el 
de reperer leurs eventuels defauls. 




CHAPITRE 2 

LES SCORES ET LEUR DISTRIBUTION 


Toute discipline scientilique aspire a mesurer et a decrire de la maniere la plus precise 
possible les phenomenes qu’elle etudie. C’est le cas de la psychologie et de l’educa- 
tion, pailiculierement lorsqu’il s’agit d’avoir recours a des tests pour rendre cornpte 
d’une caracteristique, d’un trait particulier chez une personne. C’est ici qu’entrent 
en jeu les notions de mesure et de statistiques necessaires au traitement et a l’ana- 
lyse des donnees. La quantification des variables individuelles n’est cependant pas 
aussi simple qu’il y parait. Les traitements que nous pouvons realiser sur les nombres 
dependent de la nature des mesures et la description des resultats doit tenir cornpte 
des diverses proprietes de ceux-ci 

Ce chapitre propose une double incursion dans le domaine des nombres : la 
premiere dans le domaine de la mesure et la seconde en statistique descriptive. Toutes 
deux sont necessaires pour bien comprendre la nature des resultats numeriques que 
nous obtenons en notant les reponses a un test. De plus, la statistique descriptive 
permet de mieux rendre cornpte de la distribution des resultats. Peut-on additionner 
deux resultats a des tests differents ? Comment savoir si un groupe de personnes est 
homogene ? La distribution des resultats obtenus permet-elle de differencier f'acile- 
rnent les individus ? Voila autant de questions auxquelles la mesure et la statistique 
descriptive essaient de repondre 

Dans ce chapitre, nous nous pencherons principalement sur les meilleurs 
rnoyens de decrire une distribution de resultats. Ces notions sont essentielles avant 
d’aborder les chapitres suivants. Ceux et celles qui possedent deja de solides notions 
de statistiques descriptives pourront passer directement a la lecture du chapitre 3. 

1. Les types d'echelles de mesure 

Le principal interet d’avoir recours a un systeme de nombres pour effectuer les 
mesures en psychologie et en education, c’est de pouvoir se servir de leurs proprietes 
arithmetiques. Toutefois, avant de pouvoir effectuer une quelconque operation sur les 
vaieurs mesurees, il faut pouvoir demontrer qu’elles correspondent a une certaine 
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realite, bref que cette operation est valide et qu’elle est isomorphe au systeme de 
nombres utilise. Par exemple, deux personnes ayant chacune un quotient intellectuel 
de 60 ne sont pas necessairement capables de resoudre des problemes qu’une seule 
personne au quotient intellectuel de 120 serait en niesure de solutionner Dans ce 
cas-ci, nous ne pouvons pas pretendre que 60+60 - 120. 

Les echelles de niesure nous permettent de determiner quelles operations et 
quelles transformations sont possibles sur les nombres. Plus 1’echelle de niesure est 
simple, plus ces operations sont limitees. Plus elle est complexe, plus les operations 
permises sont nombreuses. Bref, en etant bien conscients des caracteristiques, mais 
aussi des limites des echelles de niesure, nous soinmes mieux prepares a utiliser les 
proprietes des systemes de nombres 

Prenons un exemple courant. Nous avons 1’habitude dans les competitions 
sportives de noinmer les joueurs par leur numero de dossard Ces nombres ne consti¬ 
tuent qu’un moyen pratique d’identifier un joueur : un noin serait trop long aecrire et 
ne pourrait etre lisible de loin. Un nombre a deux chiffres peut etre imprime avec une 
police en gros caracteres, ce qui permet de bien identifier un joueur. Ces nombres out 
tout au plus une valeur nominate. II ne viendrait a I’idee de personne de les addition- 
ner ou d’en calculer la moyenne. II en va de meme des numeros de carte de credit, 
d’immatriculation, de securite sociale. 

A la base de tout travail d’administration de tests se trouve une operation de 
niesure. Nous employons des tests pour obtenir des informations quantitatives a pro- 
pos de caracteristiques ou de traits des personnes evaluees. Pour que cette quantifi¬ 
cation ait un sens, il est crucial que les caracteristiques que 1'on souhaite mesurer 
soient definies de maniere operationnelle. Par definition operationnelle, il faut coin- 
prendre 1’ensemble des operations qui permettent d’obtenir une valeur caracterisant 
de maniere valide une propriete qui nous interesse. 

Lorsque nous mesurons une caracteristique ou un trait, nous supposons que 
cette caracteristique ou ce trait possede une certaine permanence, une ceilaine sta¬ 
bility. Par exemple, la niesure de la temperature interne du corps ne serait d’aucune 
utilite diagnostique chez les etres humains si, coniine chez les reptiles, elle devait 
changer constamment. Si 1’intelligence n’etait pas un trait relativement stable, nous ne 
serious pas interesses a la mesurer. Lorsque nous mesurons une caracteristique, nous 
postulons que 1’operation de niesure la laisse inchangee. Mesurer un bureau n’accroit 
pas la longueur de celui-ci. Cependant, avec les etres humains, une certaine prudence 
s’impose. Demander a quelqu’un en therapie de prendre en note le nombre de ciga¬ 
rettes qu’il fume en une journee peut sensibiliser cette personne a un point tel qu’elle 
en vienne a changer spontanement son comportement. Parallelement, lorsque nous 
administrons un questionnaire, nous supposons que le fait de repondre aux questions 
ne change pas la personne qui y repond. Toutefois, ce postulat n’est pas toujours rea- 
liste : il se peut qu’une personne apprenne en repondant a un testet qu’ainsi les ques¬ 
tions soient reussies differemment. Il est possible qu’un test poidant sur les habitudes 
alimentaires sensibilise une personne au point que celle-ci reponde differemment a 
un traitement dietetique. C’est ce que nous appelons I'ejfet de I’operation de niesure. 

Dans la grande majorite des situations, nous postulons que les facteurs pre¬ 
cedents affectent peu ou pas notre operation de niesure. Il est alors legitime de se 
servir de la niesure coniine d’un indicateur valable d’une caracteristique ou d’un trait 
que nous avons detini a un niveau theorique ou conceptuel. Toutefois, nos exigences 
concernant la niesure peuvent etre fort differentes, Au minimum, nous pouvons nous 
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contenter d’une mesure qui ne consisterait qu’a « nonimer » ou a « identifier » une 
caracteristique particuliere a partir d’un certain nombre de proprietes communes. Au 
maximum, nous pouvons souhaiter obtenir une mesure qui possede tous les attributs 
d’un systeme de nombres et qui nous permette d’effectuer sur ces nombres 1’ensemble 
des operations arithmetiques. En d’autres termes, nous pouvons choisir d'utiliser des 
echelles de mesure dont les proprietes sont tres variees. 

Stevens (1946) a identifie quatre echelles principales de mesure (requemment 
utilisees en sciences humaines et en sciences physiques : 

• l’echelle nominate ; 

• 1’echelle ordinate ; 

• 1’echelle d’interval les ; 

• 1’echelle proportionnelle (aussi appelee « de rapport »). 

1.1 L'echelle nominale 

C’est la plus elementaire des formes de mesure. Comme son nom 1’indique, elle 
consiste essentiellement a « nonimer » les caracteristiques mesurees. Elle est done 
essentiellement qualitative et permet de regrouper dans un meme ensemble les obser¬ 
vations possedant au moins une caracteristique commune. 

Par exemple, si dans un service de soins psychologiques nous regroupons en 
classes ou en categories du DSM-1V ( American Psychiatric Association, 1995), les 
profils diagnostiques de toutes les personnes qui consultent, nous pourrons dresser un 
tableau de frequences ou d’effectifs par categorie clinique comme le suivant : 

• Cyclothymie : 23 

• Depression majeure : 18 

• Dysthymie : 3 

En statistique, ce type de mesure se presente sous forme de frequences d’ob- 
servations appartenant a une meme classe. Dans 1’exemple precedent, la frequence 
des patients consultant pour une depression majeure est de 18, alors que pour une 
dysthymie cette frequence n’est que de 3. 

1.2 L'echelle ordinale 

Cette echelle de mesure consiste a mettre en rang les observations, d’ou son nom 
« echelle ordinale ». Cette echelle est tres repandue en education et en psycholo¬ 
gic. Par exemple, lorsque les eleves d’un groupe-classe sont mis en rang selon leur 
score total ou lorsque I’on peut placer en serie differentes categories, qu’elles soient 
militaires (sergent, colonel, general) ou professionnelles (ingenieur junior, ingenieur 
senior), nous realisons une mesure en categories ordinales. 

1.3 L'echelle d'intervalles 

Dans cette echelle de mesure, il existe une unite constante de mesure de sorte que 
I’intervalle entre chaque valeur de l’echelle est le meme. Cette echelle possede les 
memes proprietes que l’echelle ordinale, mais permet en plus de considerer que les 
intervalles ou ecarts entre les valeurs ne changent en aucun point de l’echelle. 
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Avec une echelle d’intervalles, il devient possible d’affirmer qu’un ecart de 10 
entre un score de 40 et un score de 50 a un test est equivalent a un ecart de 10 entre 
un score de 83 et un score de 93. De telles affirmations sont parfois difficiles a soute- 
nir avec les scores des tests que nous employons en education et en psychologie, mais 
l’usage veut que nous agissions dans nos calculs comme si c’etait vraiment le cas. 

L’echelle d’intervalles possede une limite importante du point de vue 
metrique : elle ne possede pas de point d’origine absolu ou, si I’on prefere, aucun 
veritable zero. Obtenir zero a un test d’intelligence ne signifie pas que Ton mesure le 
« vide » d’intelligence. Cette valeur est done purement arbitraire, comme e’est le cas 
du zero dans 1’echelle de temperature que nous utilisons quotidiennement. En degres 
centigrades de l’echelle Celsius, la valeur zero correspond au point de congelation 
de l’eau au niveau de la mer. II aurait pu tout aussi bien s’agir du point d’ebullition 
de l’eau ou de toute autre convention. A title d’exemple, la valeur 0 de l’echelle 
Fahrenheit ne correspond pas au point de congelation : sur cette echelle il se situe 
a 32. En plus d’avoir des points d’origine differents, les echelles Celsius et Fahren¬ 
heit possedent une autre difference : 1’unite de mesure de temperature est differente. 
Un changement d’une unite centigrade correspond a un changement de 1,8 unite a 
l’echelle Fahrenheit. 

1.4 L'echelle proportionnelle 

On retrouve dans cette echelle de mesure toutes les proprietes d’une echelle a inter- 
valles egaux avec, en plus, un veritable point d’origine, le zero. Rarement possible en 
education, parfois en psychologie, elle est surtout l’apanage des sciences physiques 
ou les mesures de masse, poids, volume sont constitutes d’intervalles egaux et pos¬ 
sedent un veritable zero. En effet, zero litre signifie absence de volume, tout comme 
zero kilogramme represente une masse nulle. Il existe une echelle proportionnelle de 
mesure de temperature : e’est l’echelle des degres Kelvin, possedant un veritable zero 
(correspondant a - 273,15 °C). 

Cette echelle merite de s’appeler « proportionnelle » ou « de rapport » car, du 
fait de son point d’origine absolu, la quantite « 80 litres » represente bien le double 
de « 40 litres ». Par contre, on ne peut affirmer qu’un resultat de 120 sur une echelle 
d’intelligence represente une intelligence deux fois superieure a un resultat de 60. 
Dans ce dernier cas, nous sommes plutot en presence d’une echelle d’intervalles. 


1.5 Utilite et proprietes des echelles de mesure 

Psychologues et educateurs sont partages quant a la valeur a accorder aux resultats 
numeriques d’un test ou d’un instrument de mesure. Pour certains, le score total est 
tout au plus une echelle de mesure ordinale. En attribuant le meme nombre de points 
a chaque item d’un test, nous creons 1’illusion d’une echelle d’intervalles. Mais est-ce 
vraiment le cas ? Par exemple, on peut se demander si une personne qui a obtenu un 
score d’interet de 40 par rapport a une autre qui a obtenu un score de 30 manifeste le 
meme ecart d’interet qu’une personne ayant obtenu 15 par rapport a une autre ayant 
requ un 5. Pour affirmer cela, il faudrait mesurer l’interet sur une echelle a intervalles 
egaux. 

Pour de nombreux praticiens, il y a cependant de nombreux avantages a utiliser 
les nombres, tant que nous ne perdons pas de vue que nous operons sur des valeurs et 
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non sur les realites qu’elles symbolisent. Des que, dans un test, nous attribuons arbi- 
trnirement un point par question reussie, nous agissons conirne s’il s’agissait d’items 
ayant chacun une importance egale. L’utilisation d’une echelle a intervalles egaux est 
alors coherente avec cette procedure, merne si elle n’est pas necessairement conforme 
a la realite sous-jacente (Lord, 1953c, p. 751). 

Le tableau 2.1 resume les proprietes des echelles de mesure ainsi que les trans¬ 
formations possibles sur ces echelles. II est important de retenir que les proprietes 
d’une echelle plus simple sont comprises a 1 ’interieur d’une echelle plus complexe. 
Par exemple, toutes les operations et les transformations sur une echelle ordinale sont 
possibles a 1’interieur d’echelles d’intervalles ou d’echelles proportionnelles, mais pas 
a l’interieur d’echelles nominales. 

Comrne l’indique le tableau 2.1, une echelle noniinale ne permet qu’une seule 
operation : 1’equivalence. Toils les elements d’une meme classe sont consideres 
comrne equivalents et l’extension de la classe, ou « frequence », est la seule statis- 
tique que 1’on puisse calculer. La seule transformation possible est la correspondance 
terme a terme : si pour des raisons de terminologie, on prefere utiliser la categorie 
diagnostique « psychotique » plutot que « schiz.ophrene », ou encore la categorie 
<*• troubles graves de comportement » plutot que « inadapte socio-ajfectif ». la cor¬ 
respondance est possible si et seulement si celle-ci s’applique a tous les elements de 
1’ensemble sans exception. 

L ’echelle ordinale permet d’etablir la relation « plus grand que » et « plus petit 
que » entre les observations. Elle permet done d’elaborer des series. Des transforma¬ 
tions sont possibles sur une echelle ordinale, tant et aussi longtemps que nous preser- 
vons I’ordre : un tel type de transformation est dit « monotone ». A titre d’exemple, 
prenons la question d’attitude suivante : 


Exemple : 

Si vous pouviez disposer d'un programme informatique facile d'usage pour vous aider a 
evaluer vos eleves, quel service sounaiteriez-vous qu'il vous rende ? Cocnez la case appro- 
priee. 

1. enregistrer ei classer mes propres questions 

beaucoup D D D D D pas du tout 


Dans cette echelle de Likert, il importe peu que « beaucoup » corresponde a 
5, a 4 ou a 10. Ce qui est important, e’est que beaucoup corresponde a la valeur la 
plus elevee (ou la plus faible). Si « beaucoup » vaut 5, on peut attribuer aux echelons 
suivants les valeurs 4, 3, 2 et 1. Ceci signilie que la categorie « pas du tout » se voit 

Tableau 2.1 — Operations et transformations admissibles des echelles de mesure 



Operations admissible: 

Transformations possibles 

Echelle nominele 

= 

Correspondance 1 a 1. 

Echelle ordinale 

<> 

Monotone. 

Echelle d intervalles egaux 

+ - X v 

Lineaire. 

Echelle proportionnelle 

0 

Multiplicative. 
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attribuer un point. Si Ton souhaite que cette derniere corresponde a un zero arbi- 
traire, on peut opter pour tine echelle dont la serie de valeurs correspondantes serait 
4, 3, 2, 1, 0. De cette maniere, le point median de l’echelle correspond a la valeur 
« 2 » ce qui represente exactement la moitie de « 4 », ce qui n’etait pas le cas avec 
une echelle 5, 4, 3, 2, 1. Toutefois, cette precision n’est qu’apparente. On pourrait 
tout aussi bien justifier l’echelle 10, 7, 5, 3, 0 si nous constations que les gens ont 
tendance a choisir les valeurs medianes et si nous souhaitions accorder plus d’impor- 
tance aux choix extremes. Cette transformation est toujours monotone, merne si elle 
change les intervalles entre les categories de reponses. 

L 'echelle cl’inlervalles est sans doute, avec l’echelle proportionnelle, la plus 
attrayante. Elle permet en effet de realiser toutes les operations arithmetiques sur les 
unites de mesure, car celles-ci sont egales. Grace a ces operations, il sera possible de 
calculer des indicateurs statistiques utiles tels que la moyenne et la variance. Lorsque 
l’on decide de transformer une telle echelle, il faut preserver I’egalite des intervalles 
et tenir compte du caractere arbitraire du point d’origine. C’est pourquoi seule une 
transformation lineaire est possible dans le cas d’echelles d’intervalles. La transfor¬ 
mation lineaire prend la forme de 1’equation suivante : 

Y = ctX + k (2.1) 

Une illustration de ce genre de transformation est la transformation des degres Cel¬ 
sius en degres Fahrenheit, selon l’equation suivante : 

F = 1,8C + 32 (2.2) 

Dans 1’equation (2.2), la valeur de la constante multiplicative a est egale a 1,8. 
Elle represente le nombre d’unites de degres Fahrenheit dans un degre Celsius. La 
constante additive k constitue une correction du point d’origine arbitraire : le point 
de congelation est 0 en degres Celsius et 32 en degres Fahrenheit. De telles trans¬ 
formations lineaires sont fort repandues en education et en psychologie lorsque nous 
desirous transformer les resultats bruts a un test en une echelle simplifiee. Ces trans¬ 
formations sont discutees en detail dans le chapitre 6, section 2.3. 

L 'echelle proportionnelle permet d’effectuer toutes les operations arithme¬ 
tiques sur les intervalles entre les valeurs et sur les valeurs elles-memes. Pour trans¬ 
former les valeurs d’une echelle proportionnelle, il suffit de la multiplier par une 
constante. Par exemple, comme il existe un veritable 0 dans toutes les monnaies, 
la transformation n’a pas a tenir compte du caractere arbitraire de l’origine. Dans 
l’equation (2,1), k - 0 ce qui revicnt a poser : 

y = aX ( 2 . 3 ) 

Ce type de transformation est « multiplicative ». Par exemple, si un dollar canadien 
(1,00 $CND) vaut 0,75 euro, on peut trouver le nombre d’euros correspondant a une 
sonuue exprimee en dollars canadiens en effectuant la multiplication suivante : 

EUROS = 0,75 x $CND (2.4) 

Nous effectuons egalement une transformation multiplicative lorsque nous rnulti- 
plions par deux les resultats d’un test calcules sur 50 pour les exprimer sur 100 ou 
en pourcentage (%). 

En resume, il est important de connaitre les proprietes de l’echelle de mesure 
employee afin de determiner le type de transformation qu’il est possible d’effectuer 
sur les resultats ainsi que le type de traitement statistique, parainetricpte ou non para- 
metrique (voir Annexe 1, section 5). Fnfin, les echelles de mesure exercent egalement 
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line influence sur la maniere dont nous pouvons decrire line distribution de resultats, 
ce qui fait I’objet de la section qui suit. 

2. Caracteristiques d'une distribution 

Lorsque nous soiranes en presence d’un ensemble de resultats, que ce soient les 
scores a un test, les notes d’un examen ou une serie d’autres mesures de grandeurs, 
nous cherchons habituellement a les resumer et a les representer graphiquement de 
maniere a saisir I’essentiel de 1’information numeiique. Une representation graphique 
souvent utilisee est Y histogramme. La ligure 2.1 illustre un tel graphique ou des 
scores out ete regroupes en categories d’une etendue de 20 points. On peul constater 
que la distribution des resultats n’est pas parfaitement symetrique. Un grand nombre 
de valeurs se situent entre 40 et 60 et quelques valeurs seulement s’en eloignent. Les 
valeurs ont done tendance a se regrouper vers cette categorie (40-60) et se dispersent 
lentement vers les extreniites. 

L’observation de cet histogramme nous permet deja de percevoir de maniere 
intuitive plusieurs caracteristiques essentielles d’une distribution de scores. Ces carac¬ 
teristiques constituent autant d’indicateurs statistiques que nous allons analyser en 
detail dans cette section et dans la section 3. 

2.1 Valeurs de tendance centrale 

Lorsque nous sommes en presence d’une serie de resultats, nous souhaitons habituel¬ 
lement la caracteriser au moyen d’indicateurs decrivant la distribution. L’indicateur le 
mieux connu et sans doute le plus utilise est la moyenne. 

En theorie, la moyenne se definit comme etant Y espenmee mcithenmtique d’un 
ensemble de valeurs. C’est done la valeur qui constitue la meilleure prediction pour 
chaque valeur individuelle. En effet, si 1’on fait la somme des ecarts a la moyenne, 
1’on obtient toujours 0. On peut des lors representer la moyenne pi de la fapon sui- 
vante : 

ft = E(X) (2.5) 



Histograrrme 
des frequences 


Figure 2.1 — Exemple d'une distribution de frequences et d'un histogramme 
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Par exemple, si quelqu’un avait connaissance de la moyenne des resultats 
avant un examen, il ferait la plus petite erreur de prediction en attribuant ce score 
moyen a chacun des repondants. C’est ce qu’illustre I’exemple suivant : 

1 2 3 4 5 Valeurs observees 

- 3 3 3 3 3 — Valeurs predites = moyenne 

- 2 - 1 0 +1 +2 Somme des ecarts au carre = 0 


En pratique, la moyenne X est toutefois mieux connue par sa procedure de calcul. 
L’equation suivante nous indique que pour calculer line moyenne d’une distribution 
de scores, il faut additionner chacune des valeurs de la distribution et en diviser la 
somme par le nombre de valeurs n. 



( 2 . 6 ) 


» 


Les deux autres valeurs de tendance centrale les plus employees sont le mode et la 
mediane. Observez les deux series de valeurs suivantes : 

Serie A : 1 3 3 3 5 
Serie B : 1 2 3 4 5 

Ces deux series possedent la meme moyenne, mais dans le cas de la serie A, I’un des 
scores apparait beaucoup plus frequemment. Ce score le plus frequent d’une distribu¬ 
tion est ce que nous appelons le mode. Dans la serie A, le mode vaut 3. Comme toutes 
les valeurs out la meme frequence dans la serie B, il n’y a pas de mode. 

Le calcul du mode est relativement simple. Dans line premiere etape, il faut 
calculer la frequence de toils les scores Le score dont la frequence est la plus elevee 
constitue le mode. Par exemple, dans le cas des donnees de la figure 2.1, le mode 
correspond a I’ intervalle de scores entre 40 et 60 (frequence = 5). Le point milieu de 
cet intervalle etant 50, nous dirons que le mode de cette distribution vaut 50. 

Voici deux nouvelles series. Ces deux series sont separees au centre par le 
meme score de 3. 


Serie A : 1 2 3 4 5 
Serie B : I 2 3 4 15 

Nous dirons que ces deux series possedent la meme medicine. En effet, dans les deux 
cas, la valeur 3 separe chaque serie de nombres en deux moities egales : il y a autant 
de scores au-dessus qu’en dessous de 3 dans les deux series. Par contre, la moyenne 
de la serie B est beaucoup plus elevee. Elle tient compte non seulement de la position 
des nombres, mais aussi de leur grandeur ou poids relatif dans la distribution. La 
moyenne de la serie A est egale a 3, alors que celle de la serie B est egale a 5. Cette 
difference est imputable a line seule valeur extreme, le score 15. 


Pour calculer la mediane, il faut d’abord placer les donnees en rangs. Ensuite, 
il faut calculer le rang occupe par la mediane dans la distribution. Le rang de la 
mediane est fourni par [’equation suivante ou n indique le nombre de donnees mises 


en rang : 



1 +/i 
2 


(2.7) 
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Distribution symetrique : 
moyenne et mediane coincident. 
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Distribution asymetrique : 
moyenne et mediane different. 



Figure 2.2 — Illustration d'un centre de position et d'un centre d'equilibre 
sur une balance a fleau 


Dans la figure 2.1, la mediane occupe le rang (l + 14)/2, soit le rang 7,5. La mediane 
correspond done au score qui se situe entre celui qui occupe le rang 7 (54) et celui 
qui occupe le rang 8 (58). Par intrapolation, nous prendrons le point milieu entre ces 
deux scores et dirons que la mediane vaut 56. 

Ces proprietes differentes de la moyenne et de la mediane font que la mediane 
est consideree comme le « centre de position » alors que la moyenne est le « centre 
de gravite » d’une distribution de scores. Les proprietes particulieres de ces deux 
valeurs de tendance centrale nous sont fort utiles lorsque nous devons apprecier le 
degre de symetrie d’une distribution de scores. En effet, lorsque la moyenne et la 
mediane coincident, la distribution est generalement symetrique. Par contre, lorsqu’il 
y a un ecart entre la moyenne et la mediane, il y a asymetrie dans la distribution des 
resultats. 

La figure 2 2 utilise deux balances pour illustrer le phenomene de la syme¬ 
trie (a gauche) et de l’asymetrie (a droite). Dans la premiere balance, les poids sont 
suspendus egalement de part et d’autre du centre de position. Le fieau de la balance 
est en equilibre, car le centre de position et le centre de gravite coincident. Dans la 
seconde balance, un poids est deplace a une extremite. Pour retablir I’equilibre, il faut 
deplacer le pivot de la balance vers le centre de gravite. Tous, dans notre enfance, 
nous avons connu ce phenomene de la bascule ou, pour jouer avec un enfant plus 
lourd ou plus leger, il fallait deplacer le pivot de la bascule. Moyenne et mediane 
d’une distribution symbolisent le meme phenomene dans une distribution de scores. 
La moyenne est influencee par le poids relatif de chaque score, alors que le point 
milieu (situe a 6 dans la figure 2.2) n’est pas influence par les autres valeurs. 


2.2 Autres valeurs importantes d'une distribution de scores 

En plus des valeurs du mode, de la mediane et de la moyenne, d’autres scores occupent 
des positions interessantes a I’interieur d’une distribution. Il s’agit des quartiles qui divi- 
sent une distribution de scores en quatre parties egales, des deciles et des centdes qui divi- 
sent une distribution respectivement en 10 et 100 parties egales. Tout comme la mediane, 
ce sont des valeurs de position qui requierent que nous placions les donnees en rang. 

Ces valeurs de position permettent de situer rapidement une personne par rap¬ 
port a un groupe de reference. Obtenir un resultat de 19/25 peut signifier plusieurs 
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choses. Informer une personne qu’elle est la trentieme de son groupe ne lui apprend 
rien si elle ignore combien de personnes out ete evaluees En effet, occuper le tren¬ 
tieme rang sur 100 est loin de representer une performance comparable a celle qui 
consisterait a occuper le trentieme rang sur 1 000. Si. par contre, nous savons que le 
score 19 occupe le rang centile 82, alors nous savons que pour chaque tranche de 
100 personnes evaluees, 82 obtiennent un score inferieur ou egal a 19. 

Le rang centile RC d’un score est donne par la formule suivante : 

fc + 0,5/ 


RC 


N 


x 100 


( 2 . 8 ) 


ou fc represente le nombre de personnes ayant obtenu moins que le score et / repre¬ 
sente le nombre de personnes ayant obtenu un score egal a celui dont on cherche le 
rang centile. N represente le nombre de scores de la distribution. 


En guise d’exemple, calculous le rang centile du score 30 de la distribution de 
scores de la figure 2.1. Deux personnes ont obtenu moins de 30 et une seule a obtenu 
exactement 30. Par consequent, fc = 2 et / = I. En substituant ces valeurs dans la 
formule precedente, nous trouvons : 

<2+05x0. = *5 
14 14 

La valeur obtenue est arrondie a l’entier le plus proche. Un rang centile de 18 signifie 
done que 18 % des sujets ont obtenu un score inferieur ou egal a 30. 

La mise en rangs centiles correspond au besoin de rapporter a une echelle 
pratique - dans ce cas-ci de rangs - les scores d’une distribution. Ce genre de trans¬ 
formation est semblable a celle que nous effectuons lorsque nous ramenons un score 
a une echelle de pourcentages. Un score de 10 sur 15 correspond a un pourcentage 
de 67 % alors qu’un score de 10 sur 20 correspond a 50 %. Dans le cas du calcul des 
centiles, il ne faut pas oublier que ce n’est pas une transformation du score qui est en 
jeu, mais une transformation de son rang. 

A partir du rang centile, il est possible de determiner d’autres points interes- 
sants au sein d’une distribution. Les quartiles 1, 2 et 3, par exemple, sont les valeurs 
des scores qui correspondent aux rangs centiles 25, 50 et 75. Les deciles 1, 2 et sui- 
vants correspondent aux centiles 10, 20 et suivants. La mediane correspond au rang 
centile 50 ou si Ton prefere au decile 5 ou encore au quartile 2. 


2.3 Valeurs de dispersion 

Nous avons cependant besoin d’autres valeurs en plus de la tendance centrale pour 
definir de fa<;on precise une distribution de scores. Observons les deux series de 
scores suivantes : 

Serie A : 1 2 3 4 5 
Serie B : 2 2 3 4 4 

Meme si les deux series ont la meme moyenne et la meme mediane, la dispersion 
des resultats n’est pas la meme. Le moyen le plus simple de s’en rendre compte est 
de calculer la difference entre le maximum et le minimum de chaque serie. L’ecart 
est de 4 dans la serie A et de 2 dans la serie B. Pour etre tout a fait rigoureux, il 
faudrait tenir compte de I’etendue entourant chaque valeur discrete. Le veritable 
minimum n’est pas 1, mais sa borne inferieure sur une echelle continue, soil 0,5. 
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De inenie pour le maximum, la valeur superieure de la borne du score 5 est 5,5. 
Une premiere valeur de dispersion d’une serie de scores nous est done donnee par 
1 'etendue (E), que nous calculons de la maniere suivante pour les raisons enoncees 
precedemment : 

E - (Max - Min) (2.9) 

L’etendue de la serie A vaut done 5 (soit 5.5 - 0,5). Toutefois, cette valeur n’est 
pas ties precise coniine indice de dispersion. Elle ne tient compte que des scores 
extremes, ce qui n’est pas ties representatif. Dans I’exemple suivant, les series A 
et B ont les memes valeurs de tendance centrale (moyenne. mediane) et les inemes 
etendues. 

Serie A : I 2 3 4 5 
Serie B : I 13 5 5 

Pourtant, ces deux series presentent des dispersions differentes. Dans la serie « A », 
les valeurs 2 et 4 s’ecartent moins de la valeur de tendance centrale que les valeurs 1 
et 5. Dans la serie « B », les valeurs sont plus extremes, bien que reparties de maniere 
symetrique de part et d’autre de la moyenne. 

En supposant que ces valeurs soient des mesures d’intervalles, pouvons-nous 
calculer un indice numerique de la dispersion autour de la moyenne ? La somme des 
ecarts a la moyenne serait en apparence toute indiquee. Elle n’est cependant d’aucune 
utilite puisque, comme nous I’avons deja demontre, cette somme vaut 0. En elevant 
les valeurs des ecarts au caire, il est possible d’obtenir une somme non nulle car les 
valeurs negatives elevees au cane deviennent positives. En divisant cette somme des 
ecarts au carre par le nombre total de valeurs, nous obtenons une valeur moyenne de 
dispersion qui n’est pas influencee par le nombre d’ecarts. Cet indice de dispersion se 
nomine la variance. Le tableau 2.2 en fournit un exemple de calcul. 

L’ensemble des operations necessaires au calcul de la variance trouve sa tra¬ 
duction symbolique dans 1’equation suivante : 


£(.V -Xf 

n 


( 2 . 10 ) 


ou X represente les scores observes, X represente la moyenne des scores et n le 
nombre total de scores. La lettre j elevee au cane est, par convention, la fa^on dont 


Tableau 2.2 — Exemple de calcul de la variance 


1 2 

3 3 

3 

3 

4 5 

3 3 

Valeurs observees 

- Moyenne 

- 2 - 1 

0 

1 +2 

Etarls 6 la moyenne 

4 + 1 

+ 0 + 

1 + 4 

Ecarts a lo moyenne au carre 


10 


Somme des ecarts ou carre 


'0 o 


Moyenne des ecarts au carre = 


T = 2 


Variance 
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on symbolise la variance. Elle nous rappelle que la variance est un indice de disper¬ 
sion qui s’expriine en unites au carre. C’est pourquoi il est parfois preferable d’uti- 
liser l’ecart type s qui exprime la dispersion dans le meme systeme d’unites que la 
moyenne. L’ecart type n’est autre que la racine carree de la variance ; 


IZ(x-xy 

s= f „ (211) 

II arrive que dans le calcul de 1’ecart type et de la vaiiance, nous divisions la somme 
des ecarts au carre par n-1 plutot que par n. Cette situation se produit chaque fois que 
nous desirons estimer la valeur de dispersion de la population plutot que de calculer 
la valeur de dispersion de notre seul echantillon. Cette difference dans le calcul de la 
variance et de I’ecart type ne change pas beaucoup les valeurs lorsque le nombre d’ob- 
servations impliquees est relativement grand, mais lorsque la valeur de n est petite, la 
correction peut etre importante. Quoique les notions d’inference statistique ne soient 
expliquees qu’en Annexe 1, disons simplement que Ton voudra diviser la somme des 
caries par n - 1 chaque fois que nous voulons obtenir une valeur « conservatrice » 
de la dispersion. Bref, chaque fois que I’on desire une estimation prudente de la dis¬ 
persion d’un echantillon et chaque fois que nous cherchons a determiner la dispersion 
des resultats non pas seulement de notre echantillon, mais de tout echantillon similaire 
de meme taille, il est approprie de diviser par n-1. Autrement, la division par ii est 
adequate pour decrire la dispersion des donnees de I’echantillon en presence. 

L’ecart type de la population estime a partirde l’echantillon, (notez l’accent 
circonflexe sur le s pour signifier qu’il s’agit d’une estimation de la valeur de la popu¬ 
lation) se definit done ainsi : 


Z(X -Xf 
/1 -1 


( 2 . 12 ) 


En plus de l’ecart type et de la variance, il existe un autre indicateur pratique de la 
dispersion des resultats qui tient compte de la position des valeurs plutot que de leur 
grandeur relative. Cet indice de dispersion convient particulierement a des mesures 
ordinales : c’est Yintervcille semi-interquartile. Il s’agit en fait de calculer l’etendue 
entre deux positions particulierement significatives autour de la mediane : le premier 
et le troisieme quartile. Coniine I’il lustre la figure 2.3, I’etendue entre le troisieme et 
le premier quartile nous donne une indication de la dispersion de 50 % des valeurs 
autour de la mediane. 

Tout coniine la mediane, les quartiles ne sont pas influences par le poids des 
valeurs extremes. Substituez 9 a 12 et 30 a 25 dans I’exemple precedent et I’intervalle 
interquartile ne change pas. Cette mesure est done principalement utile pour juger de 
la dispersion des scores a proximite de la mediane. Toutefois, cet indice de dispersion 
est moins representatif que I’ecart type puisqu’il est calcule a partir de la moitie des 
scores seulement. Par convention, c’est la moitie de l’etendue de l’intervalle inter¬ 
quartile qui sert d’indice de dispersion. L’equation decrivant la procedure de calcul 
de l’intervalle semi-interquartile est la suivante : 

• _ fia ~ Q.\ 


2 


(2.13) 
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Figure 2.3 — Illustration de I'intervalle semi-interquartile d'une distribution 


Dans cette derniere equation, I’intervalle semi-interquartile / est calcule en 
divisant par deux I’ecart entre le troisieme quartile Q } et le premier quartile Q,. 
Lorsque 1’ecart entre le premier quartile et la mediane est different de 1’ecart entre le 
troisieme quartile et la mediane, c’est le signe d’une accumulation des scores d’un 
cote ou de I’autre de la mediane. 


Pour calculer la valeur de I’intervalle semi-interquartile de I’exemple de la 
figure 2.3, nous devons substituer les valeurs du troisieme et du premier quartile dans 
1’equation (2,13). La valeur du premier quartile est 15, celle du troisieme quartile est 
21,5 (valeur mediane entre 21 et 22). Nous obtenons alors le resultat suivant : 


21,5 - 15 

2 


3,25 


(2.14) 


2.4 Valeurs d'asymetrie 

Les valeurs de tendance centrale et de dispersion nous permettent de decrire avec 
precision une distribution de scores. Mais la encore, d’importantes informations nous 
manquent pour decrire completement la distribution des resultats. L’une de ces infor¬ 
mations a trait au degre d’asymetrie Observez bien les deux series suivantes : 

Serie A : 1 15 9 9 
Serie B : 1 1 5 8 10 

Ces deux series de scores ont la meme moyenne (5), et la meme variance (13). Pour- 
tant, la distribution des resultats est symetrique dans la serie A, alors qu’elle est asy- 
metrique dans le cas de la serie B. Nous avons besoin d’un nouvel indicateur qui nous 
renseigne sur le degre d’asymetrie d’une distribution de resultats. 

La procedure la plus simple pour estimer le degre d’asymetrie d’une distribu¬ 
tion est de comparer les valeurs de la moyenne et de la mediane. Lorsque la moyenne 
est plus grande ou plus petite que la mediane, c’est le signe evident d’une asymetrie 
des resultats. Prenez en consideration les deux series de donnees suivantes : 

Serie C : 3 4 5 6 7 
Serie D : I 2 7 7 8 

Dans les deux series, les moyennes sont identiques (5). Cependant, la mediane de la 
serie D est superieure a celle de la serie C. La mediane pour C est de 5, alors que 





76 


Les scores et leur distribution 


la valeur de la mediane en D est 7. Lorsque la moyenne est inferieure a la mediane, 
nous parlous d’asymetrie negative. Dans le cas ou elle est superieure a la mediane, 
nous parlous d’asymetrie positive. Par contre, lorsque mediane et moyenne coinci¬ 
dent, on ne peut pas conclure qu’il y a necessairement symetrie. Dans les series A et 
B precedentes, mediane et moyenne sont egales sans pour autant que les deux distri¬ 
butions soient symetriques. 

Une asymetrie negative est le signe d’un entassement des valeurs au-dessus de 
la moyenne et d’un nombre reduit de valeurs beaucoup plus petites Une asymetrie 
positive est le signe d’un entassement des valeurs plus petites et d’un petit nombre de 
valeurs ties elevees. La figure 2.4 represente les formes caracteristiques de chacune 
de ces distributions. 


L’observation de la figure 2.4 permet de constater 1’etalement des scores a 
1’une des extremites de chaque distribution asymetrique. On peut done compter sur 
I’observation de la distribution des resultats pour evaluer I’asymetrie d’une distribu¬ 
tion de scores. Cette faijon de proceder demeure toutefois approximative, tout coniine 
la comparison des valeurs de la moyenne et de la mediane. On peut etre plus precis 
en calculant plusieurs indices numeriques d’asymetrie. L’un des ces indices met a 
profit I’ecart entre la mediane Md et la moyenne X dans une distribution asymetrique : 


A = 


3(X - Md) 
s 


(2.15) 


Dans cette equation, s symbolise I’ecart type et A la valeur d’asymetrie recherchee. 




Figure 2.4 — Histogrammes de frequences representant 
des distributions asymetriques 
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Un autre indice met a profit I’etalement des scores autour de la mediane. Plus 
la distribution est asymetrique plus il y aura une grande difference entre I ’etendue des 
scores Q ,- Mcl et Q, - Mil. C’est ce qu’illustre la figure 2.5. 

On y constate un etalement des valeurs faibles et un regroupement des valeurs 
au-dessus de la moyenne. La distribution de frequences de la figure 2.5 a ete decou- 
pee exactement en quatre parties, chaque partie etant noircie par un ton de gris dif¬ 
ferent Conuiie il y a en tout 48 sujets, chaque partie en differents tons de gris rend 
compte des resultats de 12 sujets. On constate que les 12 premiers sujets (scores 
inferieurs au premier quartile) ont obtenu des resultats entre 1 et 4 (etendue de 4). Les 
12 sujets suivants, qui ont obtenu un score entre le premier et le deuxieme quartile, 
sont beaucoup moins disperses : leurs scores s’etendent entre 5 et 6 (etendue de 2). 
Entre le deuxieme quartile et le troisieme quartile, 1’etendue des scores n’est plus que 
de 1 car 12 des 48 sujets ont obtenu le meme score de 7. Comme on peat le constater 
sur cette figure, une asymetrie negative va se traduire par un plus grand etalement des 
valeurs sous la mediane et par une concentration des valeurs au-dessus. 

Ces proprietes des etendues interquartiles ont donne lieu a un autre procede 
de calcul de 1’asymetrie, particulierement approprie dans le cas de donnees ordinales. 
Ce procede est plus precis que celui decrit dans (2 15) car il fait intervenir davantage 
de donnees (80 % au lieu de 50 %) et qu’il n’est pas sensible a la valeur relative des 
scores extremes. Au lieu de limiter la mesure de la dispersion autour de la mediane 
aux quartiles I et 3, ce procede 1’etend au centile 10 et au centile 90 de maniere 
a inclure un plus grand nombre de valeurs. Le meme raisonnement s’applique tout 
comme dans l’exemple de la figure 2.5. II est toutefois relativement simple a calculer 
une fois que I’on dispose des valeurs du centile 90 (C ()0 ) et du centile 10 (C /0 ) : 

A _ £»l±Cw _ Cso (2 .| 6) 


Frequences 



Scores 


Figure 2.5 — L'asymetrie d'une distribution revelee par I'etalement des scores 

autour de la mediane 
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La valeur la plus rigoureuse de calcul de l’asymetrie est sans doute celle qui tient 
compte de la totalite des valeurs. L’asymetrie est alors obtenue de la fa<;on suivante : 


A = 


n 

(H - 1)(« - 2) 



(2.17) 


OU 5 = 


n- 1 


Cette valeur d’asymetrie vaut 0 lorsque la distribution est symelrique. Elle prend des 
valeurs negatives ou positives d’autant plus elevees que le degre d’asymetrie est pro¬ 
nonce dans un sens ou I’autre de la distribution des resultats. 


2.S Valeurs de voussure de la distribution 

On pourrait croire que les valeurs de tendance centrale, de dispersion et d’asymetrie 
suffisent a caracteriser une distribution. Ce serait oublier une autre caracteristique de 
la distribution des resultats qui nous renseigne sur le degre d’homogeneite des scores. 
Visuellement, cette quatrieme caracteristique se presente comme le degre de voussure 
plus ou moins prononce de la distribution des resultats. II est possible de calculer un 
indicateur numerique de ce degre de voussure ou d’aplatissement : la kurtose. Obser- 
vez les deux series de scores suivantes : 

Serie A:3345677 
Serie B:2555558 

Ces deux series out memes moyennes, memes medianes, memes variances et 
elles sont toutes deux symetriques. Pourtant, elles sont manifestement differentes. 
Dans la serie A, les valeurs sont dispersees sur toute F etendue des scores de la distri¬ 
bution. Cette etendue n’est pas aussi grande que celle de la serie B, mais dans la serie 
A, presque toutes les valeurs contribuent a la dispersion des resultats (sauf le 5). Dans 
la serie B, le meme score se repete souvent et la variance des resultats n’est imputable 
qu’a deux cas extremes (les valeurs 2 et 8). 

La kurtose mesure le degre d’aplatissement d’une distribution. On en distingue 
trois types et la figure 2.6 fournit une illustration de chacune : 

• la distribution leptokurtique, elancee, concentrant un grand nombre de scores 
pres de la moyenne ; 

• la distribution platykurtique, aplatie, se caracterisant par un etalement des 
scores ; 

• la distribution mesokurtique , representant une situation intermediate entre les 
deux precedentes. 

La figure 2.7 montre comment l’on peut avoir une idee du degre de voussure 
d’une distribution en calculant le rapport de deux etendues significatives. La premiere 
etendue porte sur 1’intervalle semi-interquartile et nous renseigne sur le degre de dis¬ 
persion des scores pres de la moyenne. La seconde porte sur I’intervalle entre C 90 et 
C w et est davantage infiuencee par les valeurs extremes. Lorsqu’une distribution est 
leptokuilique, la premiere etendue est tres petite par rapport a la seconde. Par contre, 
lorsque les valeurs sont fortement etalees, le rapport entre les deux etendues s’accroTt. 
La formule suivante decrit un premier mode de calcul de la kurtose n’utilisant que 




Figure 2.6 — Distributions en ordre croissant de kurtose 

les valeuis de position des scores. Cette fornnile est particulierement adequate dans 
le cas de mesures ordinales : . 

K J C ’- C °)/* , 2 . 18 ) 

C — c 

'■'90 *■'10 


En substituant dans 1’equation (2.18) les valeuis correspondantes de la figure 2.7, 


nous obtenons : 


(6,5 -4,5/2) _ \_ 
(8,5 -2.5) " 6 


0.1667 


Une distribution est consideree comme mesokurtique lorsque la valeur de K est voi- 
sine de 0,2632. Elle sera consideree comme leptokurtique lorsque K < 0,2632 et 
comme platykurtique lorsque K > 0,2632. Le principal avantage de cette formule est 
de permettre de se faire rapidement une idee du degre de voussure d’une distribution 


Frequences 



1 2 3 4.5.6. 7 8.9 10 Scores 

t 111 t 

Cm C 25 C so C75 Cgo 


Figure 2.7 — Calcul de la kurtose a partir des rangs (quartiles et deciles) 

d'une distribution 
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a partir du calcul de quatre valeurs importantes de rangs centiles. Dans le cas de la 
figure 2.7, la valeur K est nettement inferieure a 0,2632 et indique une distribution 
leptokurtique. Ceci nous confirme ce que nous pouvions deja observer : la nature 
elancee et clairement leptokurtique de la distribution des resultats. 


Pour obtenir une estimation plus precise de 1’aplatissement d’une distribution, 
on peut, tout comnie nous 1’avons fait pour le calcul de 1’asymetrie faire intervenir 
toutes les valeurs de la distribution et tenir compte de leur importance relative. Le 
calcul de la kurtose s’effectue alors de la maniere suivante : 


n(n +1) ■y. | 

(X. - X 
) 

((« - ix« - 2 Xn - 3)^1 

1 


3(» - D : 

(« - 2)(n - 3) 


(2.19) 


ou s - 


I'Zix-xy 


Notez bien que la valeur de kuilose fournie par 1’equation (2.19) n’est pas sur la 
meme echelle que celle de 1’equation (2.18) Dans le cas de 1’equation (2.19), une 


ENCADRE 2.1 - EXEMPLE DE CALCUL DE LA KURTOSE 


Distribution leptokurtique 



Scores 


Score X 

f 

x = X-X 

x-x 

z = - 

5 

z 4 

fz 4 

3,000 


-2,500 

-2,351 

30,568 

30,568 

4,000 



-1,411 

3,962 

7,923 

5,000 

9,000 

-0,500 

-0,470 

0,049 

0,440 

6,000 

9,000 

0,500 

0,470 

0,049 

0,440 

7,000 

2,000 

1,500 

1,411 

3,962 

7,923 

8,000 


2,500 

2,351 

30,568 

30,568 

Somme 





77,863 
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distribution est consideree coniine mesokurtique lorsque K = 0. Lorsque K > 0, 
elle est leptokurtique et lorsque K < 0. elle est platykurtique. L’encadre 2.1 fournit 
un exemple de calcul de la kurtose a partir de l’equation (2.19). En substituant les 
valeurs numeriques de l’encadre 2.1 aux variables de F equation (2.19) nous trouvons 
une valeur calculee de la kurtose de 0.96, ce qui confirme le caractere leptokurtique 
de la distribution. Voici comment ce resultat a ete obtenu en substituant les valeurs de 
l’encadre 2.1 dans Fequation 2.19 :. 


K = 


25 x 24 
23 x 22 x 21 


77,863 


3 x 23 ; 
22 x 21 


K = 


610 
10 626 


77,863 


1 587 
462 


A'= 4,3966- 3,4351 = 0,962 


2.6 Autres methodes de representation graphique des donnees 

Jusqu’ici, nous nous sommes restreints a un seul mode de presentation des donnees : 
l’histogramme des frequences. Cette methode de presentation graphique est adequate 
dans la mesure ou nous n’avons pas d’objection particuliere a regrouper les donnees 
en categories. L’histogramme de frequences nous fournit alors un apercu rapide de la 
distribution des resultats. 

Lorsque nous voulons retenir les valeurs individuelles des donnees, le dia¬ 
gramme en feuiltes constitue une alternative a l’histogramme des frequences. Tout 
comme l’histogramme, il repose sur un denombrement des valeurs. II existe plusieurs 
variantes de ce type de diagramme, mais pour l’essentiel il est constitue de tiges et 
de feuilles. Les tiges sont choisies pour regrouper les valeurs par tranches (de 10, de 
100, etc.) sur lesquelles se greffent les feuilles en unites plus petites. La figure 2.8 
represente un diagramme en feuilles typique. 

Le diagramme en f euilles de la figure 2.8 se presente comme un histogramme 
que Fon aurait choisi de presenter horizontalement, couche sur son ordonnee Y. On 
reconnait rapidement une distribution symetrique des resultats. Les tiges sont consti¬ 
tutes des dizaines que Fon a separees en deux : les dizaines associees aux valeurs 0 
a 4 (1* 2* 3* 4* el 5*) et les dizaines associees aux valeurs 5 a 9 (1. 2. 3. 4. 5.). 
L’avantage de ce mode de presentation est de conserver les valeurs individuelles. 
C’est ainsi que nous realisons qu’il n’y a ni valeur 46, ni valeur 48, ni valeurs de 
51 a 53. 11 est facile avec ce graphique de calculer toutes les valeurs de position. 
Sachant qu’il y a 69 valeurs, la mediane occupera done le rang 35 [(69+1) 1 7 - 35], 
Comme les donnees sont deja mises en ordre, il n’y a qu’a remonter d’une extremite 
ou Fautre du diagramme jusqu’a la valeur dont le rang est 35 pour decouvrir que la 
mediane est 33. Le rnerne procede permet de retrouver aussi rapidement les autres 
valeurs importantes de position telles que les quantiles, deciles ou autres. 

Parfois, nous ne sommes pas interesses par Fensemble des valeurs indivi¬ 
duelles d’une distribution. C’est le cas lorsque la dispersion des valeurs constitue 
notre principale preoccupation, en particular celle des valeurs extremes. Dans de 
tels cas, le diagramme en boite constitue une alternative au diagramme en feuilles 
ou a Fhistogramme de frequences. Le diagramme en boTte illustre la dispersion des 
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Figure 2.8 — Diagromme en feuilles 

donnees autour de la mediane ainsi qu’aux extiemites. La boite rectangulaire est defi- 
nie a chaque extremite par le premier et le troisieme quartile (Q s et Q t ), et le trait a 
1 ’ interieur de la boite represente la mediane La boite est prolongee a chaque extre¬ 
mite par des traitilles ou moustaches au-dela desquels se situent les valeurs extremes 
ou aberrantes. 

La definition des valeurs extremes peut varier d’un auteur a 1’autre. C’est 
pourquoi les diagrammes en boite peuvent etre difTerents selon les programmes de 
calcul. Une definition repandue, due a Tukey (1977), veut que 1’on considere comme 
aberrantes toutes valeurs situees au-dela d’une etendue appelee « saut » equivalant 
a 1,5 fois 1’intervalle interquartile en dessous de Q, ou au-dessus de Q y De plus, 
les moustaches sont prolongees de part et d’autre de la boite jusqu’a la valeur la 
plus petite et jusqu’a la valeur la plus grande comprise a 1’interieur du « saut ». Les 
valeurs a 1’exterieur de cette etendue seront considerees comme des cas extremes et 
seront representees par un symbole particulier, tel un asterisque (*). 

La figure 2.9 presente le diagramme en boite des donnees de la figure 2.5. 
Les extiemites de la boite sont bien situees aux valeurs de Q, = 4,5 et de Q 3 - 7,5. 
Le trait interieur representant la mediane correspond bien a la valeur 6,5. L’inter- 
valle interquartile vaut 3 (Q 3 - Q, = 7,5 - 4,5 = 3) et I’etendue du saut sera par 
consequent egale a 1,5 x 3 = 4,5. Les valeurs extremes seront done situees au- 
dessus de la valeur Q 3 plus un saut de 4,5 et au-dessous de la valeur de Q, moins 
un saut de 4,5. On definit ainsi comme extremes les valeurs superieures a Q 3 + 4,5 
- 7,5 + 4,5 = 12 ou inferieures a Q, - 4,5 = 4,5 - 4,5 = 0. Quant aux moustaches, 
elles s’etendent de la plus petite valeur a la plus grande valeur des donnees com¬ 
prises entre 0 et 12 : soit entre I et 9, car il n’y a aucune valeur plus grande que 9 
ou plus petite que 1, 

Le diagramme en boite de la figure 2.9 reussit bien a capter 1’essence de la dis¬ 
tribution des resultats. On voit clairement que la distribution est asymetrique negative 
et qu’elle ne comporte aucune valeur extreme, L’asymetrie est evidente au centre de 
la distribution, car la mediane ne se situe pas exactement au milieu de la boite. Elle 
est egalement visible par I’etalement des moustaches, plus marque vers les valeurs 
faibles. 
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Figure 2.9 — Diagramme en boite et histogramme de frequences correspondent 

Malgre ses avantages, le diagramme en boite possede un inconvenient de 
taille : il ne pennet pas de differencier les distributions possedant plus d’un mode. 
La representation de 1’etalement des valeurs autour de la mediane peut contribuer a 
voiler 1’existence d’un second mode, comme e’est le cas d’une distribution bimodale. 
Seul un histogramme de frequences ou un diagramme en feuilles pourrait nous reve¬ 
ler 1’existence de plus d’un mode. Comme cette situation ne se produit que rarement, 
le diagramme en boite demeure particulierement attrayant par sa simplicity. II faut 
toutefois etre sensible a cette limite et au fait que des programmes differents de calcul 
peuvent definir autrement les valeurs extremes. 

2.7 Synthese et application 

En resume, pour tirer vraiment profit de I’etude d’une distribution de frequences, 
nous avons besoin de calculer quatre valeurs qui nous permettent de la caracteriser: 

1. Une valeur de tendance centmle : e’est un indice de la valeur vers laquelle tend 
1’ensemble des resultats. 

2. Une valeur de dispersion des resultats : e’est un indice du degre d’ecart des 
resultats a la valeur de tendance centrale. 

3. Une valeur de symetrie : cet indice permet de determiner si les resultats se dis- 
tribuent egalement de part et d’autre de la valeur de tendance centrale. 

4. Un indice de kwtose : cet indice permet de determiner si une proportion impor- 
tante des resultats se regroupe autour de la valeur de tendance centrale ou si 
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les resultats sont disperses de maniere plus ou moins egale dans I’ensemble de 

la distribution. 

Pour calculer ces valeurs, il faut tenir compte de la nature de I’echelle de 
mesure des resultats puisque celle-ci limite les operations et les transformations que 
I’on peut effectuer sur les nombres. Le tableau 2.3 presente un resume de ces princi- 
paux indicateurs pour chaque echelle de mesure. 

11 est important de determiner si les caracteristiques d’une distribution de 
resultats correspondent bien a I’usage projete. Dans bien des cas, une distribution nor- 
male, symetrique et mesokurtique, fera I’affaire. Elle represente en effet une situation 
intermediate entre des cas extremes d’asymetrie et de voussure. Pourtant, il existe 
des situations ou I'on prefererait obtenir un autre type de distribution afin de pouvoir 
inieux discriminer entre ceilains individus appartenant a une categorie bien precise. 

Dans les situations extremement competitives de selection, une distribution 
asymetrique positive est generalement preferable. Pour accorder un emploi par voie 
de concours, nous sommes interesses par une distribution de frequences ou la plu- 
part des participants auront des resultats tres faibles et oil un ties petit nombre de 
personnes auront des resultats eleves s’etalant sur la plus grande etendue possible de 
scores. C’est en donnant un test ties difficile que I'on parvient generalement a obtenir 
une distribution asymetrique positive. 

Parfois, comme dans les institutions scolaires, nous sommes interesses a iden¬ 
tifier le petit groupe d’eleves qui ne possedent pas les pre-requis necessaires d’ap- 
prentissage ou encore qui eprouvent des dif'ficultes. Dans ce cas, nous aurons plutot 
tendance a donner un examen tres facile, qui sera reussi par I’ensemble des eleves et 
que ceux-la memes qui eprouvent des difficultes echoueront. Un tel examen est fort 
susceptible de presenter une distribution asymetrique negative. 

L’asymetrie nous permet d’accroitre la discrimination a une seule extremite 
d’une distribution. Dans le cas d’une evaluation-bilan, il peut etre necessaire de dis¬ 
criminer egalement aux deux extremites d’une distribution. Par exemple, lorsqu’un 
psychologue utilise un test d’intelligence, il est interesse d’obtenir le maximum de 
discrimination possible a chaque extremite : autant panni les valeurs tres basses qui 
peuvent servir au classement en institution que parmi les valeurs tres elevees qui peu- 
vent decider d’une promotion ou d’un cheminement scolaire particulier. C’est dans 
ce genre de situation qu’il est preferable d’obtenir une distribution symetrique des 
resultats. 

Le degre de voussure d’une distribution nous informe sur le degre de discrimi¬ 
nation que I’on peut escompter sur I’ensemble d’une distribution et en particulier, au 
centre de celle-ci. Une distribution leptokurtique est le signe de resultats homogenes 


Tableau 2.3 — Les quatre caracteristiques d'une distribution selon I'echelle de mesure 



Tendance centrale 

Dispersion 

Asymetrie 

Voussure 

Echelle nominale 

Mode 




Echelle ordinale 

Mediane 

Intervalle 

semi-interquartile 

Asymetrie(equation 216) 

Kurtose (equation 2.18) 

Echelle 

d'intervalles 

Moyenne 

Variance 

Ecart type 

Asymetrie (equation 2.17) 

Kurtose (equation 2.19) 
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ou il est ties difficile de differencier les individus pies de la moyenne. Une distribu¬ 
tion platykurtique est le signe de resultats heterogenes qui permettent de mieux dif¬ 
ferencier les individus au centre de la distribution. Par contre, la dil'ferenciation aux 
extremites y est moins bonne. 

Conune on peut le constater, toutes ces caracteristiques d’une distribution nous 
permettent de tirer des conclusions intercssantes sur la nature des resultats. Ces infor¬ 
mations doivent etre recoupees et leurs interactions etudiees de maniere approfondie 
pour exploiter correctement toute I'information descriptive. L’exemple qui suit vous 
permettra de juger de 1’utilite de ces dil'ferents indicateurs. 


Exemple 

Teutons de voir comment il est possible de mettre d profit les informations concernant une 
distribution de scores dans le cas particulier de I'etude des resultats a un examen. Voici les 
resultats de 4 1 eludiants du baccalaureat inscrils a un cours optionnel de Dacirrologie d'une 
faculte d'education. Les scores ont ete oblenus a I'examen de mi-trimestre. II y a dans ce 
groupe des eludiant(e)s (N = 41] des programmes de sciences de l education et du pro¬ 
gramme de sciences infirmieres. Voici les resultats obtenus sur 20, dons un ordre quelconque : 


9 

17 

16,5 

13 

9 

16 

15,5 

4 

10,5 

15 

15 

18 9,5 

12 

16 

13 

15 

14,5 

13,5 

15 

16 

17 

15 

12 

12,5 

13 

14,5 

13,5 

14 

14 

14,5 

14,5 

14,5 

6 

7,5 

8,5 

9 

10,5 

10,5 

10,5 

13,5 





Une telle serie de nombres ne nous apprend que peu de choses. Tout au plus peut-on y 
noter lo presence de deux valeurs Ires faibles (4 et 6) qui se detachenl neltemenl du groupe. 
Mois comment en etre sur 2 

II nous faul examiner la distribution de scores Elanl donne qu'il y a 41 eiudionts, que 
letendue entre le minimum (4) el le maximum (18) de cetle distribution est de 1 5, plusieurs 
regroupemenfs de scores sont possibles. Lo figure 2 10 nous en propose trois : le premier 
en intervalles de classe de 1 cree trop de classes et ne comporte pas assez d'individus par 
classe. Por ailleurs, cette distribution n'est pas continue car il y a quelques classes dont la 
frequence egale 0, Par contre, le regroupement en classes d'une etendue de 4 points est 
trop grossier. Le meilleur regroupement consiste en intervalles de classe d'une etendue de 
2. Pour choisir le nombre de classes et I'etendue de chacune de celles-ci, nous tochons de 
suivre les regies suivantes : 

1. La distribution doit comporler un minimum de 7 classes et un maximum de 12. 

2. La frequence des resultats d'une classe ne devrai! jamais etre egale a 0 

3. II fout limiter le nombre de classes dont !• frequence est inferieure o 5. 


Classe = 1 



Scores 


Classe = 2 



Scores 


Classe = 3 

25 

20 

15 

10 _ 

5 _ 

pi -- 

5.5 9,5 13,5 17,5 

Scores 


Figure 2.10 — Trois procedures de regroupement des scores en classes 
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Notre dernier choix safisfoit ces exigences. De plus, il permet de constaler que la distribu¬ 
tion est asymetrique negative, justement 6 couse d'un petit nombre de voleurs tres foibles. 
Ce genre de distribution convient il bien a un examen de mi-lrimestre ? Fort probablement 
oui, cor il permet d’identifier les etudiants qui n'ont pas alteint les exigences du cours. 

['observation de la figure 2. 1 1 et plus porticulierement de la figure 2.12 confirme [obser¬ 
vation precedente. Le diagramme en feuilles de lo figure 2.11 nous permet de constater 
le caractere asymetrique de la distribution. Dans ce diagramme en feuilles, la presence 
de valeurs decimoles (0,5) et lo petite etendue de I'echelle de I'examen (20 paints) ont 
complique le choix des tiges et des feuilles. Lo legende de cetle figure indique que les tiges 
regroupent les feuilles par tranches de 2 et que choque feuille represente une progression 
d'un demi-point (0,5). Le resultat est fort similaire a l'hist«gramme de frequences regroupant 
les donnees en classes de 2 

On remorque aussi que les deux resullats les plus foibles sont les voleurs 4 el 6. Mais ces 
valeurs ne constituent pas des cos extremes, si Ton en juge d'apres le diagramme en boite 
de la figure 2.12, car elles se situent 6 I'interieur des moustaches. En effet, toutes deux se 
retrouvent parmi les valeurs situees 6 un saul sous le premier quartile. On remarque oussi 
d'apres ce diagramme en boite que lo distribution est asymetrique negative et que la 
mediane ne se situe pas exaclement ou centre de I'intervalle interquartile, 

Le tableau 2.4 presente les principales stalistiques descriptives calculees d partir des don¬ 
nees. En consultant ces stalistiques, on peut se demander si I'examen etait de difficulty 
adequate pour le groupe. Lo note de passage elanl de 60 % (1 2/20), une moyenne de 
1 2,8/20 indique done un examen difficile ou un groupe qui eprouve des difficultes. Il faut 
nuancer cette affirmotion en tenant compte de I'asymetrie des resultats (- 0,81 selon [equa¬ 
tion 2.17) : 50 % des etudiants ont oblenu plus que 1 3.5 (la mediane) 


Tige Feuilles Donnees brutes Freq. 


4 

0 

4 

1 

6 

0$ 

6 7 

2 

8 

#***$ 

8,5 99 9 9,5 

5 

10 

#### 

10,5 10,5 10,5 10,5 

4 

12 

00#***$$$ 

12 12 12,5 13 13 13 13,5 13,5 13,5 

9 

14 

00#####*****$ 

14 14 14,5 14,5 14,5 14,5 14,5 1515 15 15 15 15,5 

13 

16 

000#** 

16 16 16 16,5 17 17 

6 

18 

0 

18 

1 


Legende: 0 =+0 * = +1 Examples : 14$ = 15,5 8* =9 

# = +0,5 $ = +1,5 

Figure 2.11 — Diagramme en feuilles des donnees de I'exemple 


"|-i-1-1-1-1-1-1-1-p 

4 6 8 10 12 14 16 18 


Figure 2.12 — Diagramme en boite des donnees de I'exemple 
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Tableau 2.4 — Principales statistiques descripfives de I'exemple 


Moyenne 

12,88 

Mediane 


Mode 


Variance 

9,85 

Ecart type (equation 2.12) 

3,18 

Intervalle semi-interquarlile 

2,25 

Asymetrie (equation 2.16) 

-1,00 

Asymetrie (equation 2.17) 

-0,84 

Kurtose* (equation 2.19) 

0,32 

Quartile 1 

10,50 

Quartile 3 

15,00 


On peut aussi tenter de determiner si les resultats permettent de differencier les etudiants. 
Cinquante pour cent des resultats se situent entre 10,5 IQ 1) el 15 IQ3I ce qui represente 
une etendue de 4,5. Line etendue de 4,5 peut sembler bien petite pour differencier 20 
etudiants, mais il faut tenir compte du fait que 4,5 represente pres du quart de I'etendue 
tatale de 20 paints D'apres I'indice de kurtose de la distribution (equation 2.19), celle-ci 
serait de voussure moyenne (mesokurtiaue) ce qui indiquerait qu'il n'y a pas de concentra¬ 
tion « anormale * des resultats autour ae la moyenne. 

A partir des resultats obtenus, on peut dire que I'examen a ete legerement difficile pour le 
groupe d'etudiants. L'asymetrie negative de la distribution a permis de faire ressortir claire- 
ment un petit groupe d'eleves tres raibles ayant nettement echoue d cet examen. Les resultats 
permettent aussi ae differencier I'ensemble des eleves, en particulier pres de la moyenne, 
meme si c'est a cet endroit qu'il est le plus difficile de le faire, Dans le systeme universitaire 
canadien, I'examen se prete bien a la transformation des resultats en cotes A, B, C, D, E, 
car les scores obtenus couvrent pratiquement toute I'etendue de la distribution (minimum = 4 ; 
maximum = 1 8). Enfin, une distribution asymetrique negative revele une legere accumulation 
de scores audessus de la moyenne. Regie generale, un professeur preferera obtenir une dis¬ 
tribution asymetrique negative au lieu d'une distribution normale, surtout si I'objectif du cours 
nest pas la selection, mais une approche fondee sur la pedagogie de la reussife 


3. La distribution normale 

La distribution normale etant d’un usage ties frequent en psychometric et en edume- 
trie, il est necessaire de rappeler ses caracteristiques essentielles. Elle a ete definie 
de maniere precise par Laplace (1749-1827) et par Gauss (1777-1855). La premiere 
application de cette distribution a des donnees humaines (en l’occurrence la taille) a 
ete realisee par I’astronome beige Quetelet (1796-1874). La distribution normale est 
une distribution theorique d’une variable continue au sein d’une population infinie. 
Par consequent, les distributions de frequences que nous observons en psychology et 
en education, basees sur un nombre (ini de donnees discretes, ne peuvent etre qu’une 
approximation de cette distribution theorique. 










88 


Les scores et leur distribution 


Mathematiquement, la distribution normale est definie par la fonction suivante : 


f(X) = 



( 2 . 20 ) 


Dans cette equation, n et e sont des constantes (rr ~ 3,1416 et e = 2,7183) ; J.L et a 
sont, respectivement, la inoyenne et l’ecart type de la distribution dans la population. 
Si nous definissons une valeur pour (j et a, nous pouvons alors calculer f(X) pour 
toute valeur X. Les valeurs obtenues nous permettent de tracer la courbe normale 
theorique presentee dans la figure 2.13. Nous pouvons constater que la distribution 
normale est symetrique et unimodale. Ses limites sont -*> et +c°. Par ailleurs, sa 
moyenne, son mode et sa mediane sont egaux. Elies correspondent a la valeur se 
situant precisement au milieu de la distribution. 

Dans la mesure ou X est une variable continue qui peut prendre une infinite de 
valeurs, il est impossible de calculer la probability d’occurrence d’une valeur precise 
de X. Par contre, nous pouvons evaluer la probability d’occurrence d’une valeur de X 
au sein d’un intervalle particular. Cette probability correspond a 1’aire sous la courbe 
entre les deux bornes choisies. Elle peut etre calculee par l’operation d’integration de 
f(X) entre les bornes x, et .v. : 

(121> 


Heureusement, ce calcul fastidieux peut etre evite en utilisant directement des tables 
de probability. Les tables existantes ont ete elaborees en prenant 0 coirtme moyenne 
et 1 comme ecai t type. Dans ce cas precis, la distribution normale est appelee dis¬ 
tribution normale reditile (ou distribution centree reduite) et les valeurs de X sont 
appelees scores z (vou' Table 4, Annexe 2) Toute distribution normale, de moyenne 
et d’ecart type quelconques, peut etre transformee en une distribution normale reduite 
au moyen de la formule suivante : 


z 



( 2 . 22 ) 



Figure 2.13 — La distribution normale theorique 
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La transformation en scores z consiste simplement a calculer la difference 
entre chaque valeur de X et la moyenne de la distribution de X puis de diviser cette 
difference par 1’ecart type de la distribution de X. Par exemple, si la moyenne de la 
distribution est 50 et son ecart type est 10, une valeur de X egale a 45 conespondra a 
une valeur z egale a - 0,5 Soulignons que cette transformation est lineaire et qu’elle 
n’affecte pas 1’ordre de grandeur des valeurs. Pour chaque valeur de X. nous avons 
en effet seulement soustrait une constante et divise par une constante. La forme de 
la distribution n’est pas modifiee par une telle transformation. Cela signifie que, si la 
distribution n’etait pas normale avant transformation en scores z, elle ne le sera pas 
apres. Contrau ement a une idee repandue, cette transformation n’a pas la veilu de 
normaliser la distribution ! En fait, 1’interet de cette transformation est de representer 
toute distribution normale sur une echelle commune de moyenne egale a 0 et d’ecart 
type egal a 1. II est ainsi possible d’utiliser la table de la distribution normale reduite 
quels que soient la moyenne et I’ecart type de la distribution normale originale. 

Voyons a present comment utiliser la table de probabilites de la distribution nor¬ 
male reduite (voir Table 4, Annexe 2). La table nous donne fame sous la courbe pour 
chaque intervalle entre la moyenne (c’est-a-dire 0) et les valeurs de z qui s’echelonnent 
de 0,01 a 4,00. Par exemple (figure 2 14), pour 1’intervalle entre la moyenne et 0,60, 
1’aire sous la courbe est egale a 0,2257 (voir sous la colonne « De la moyenne a z »). 
Cela signifie que, si nous tirons un score au hasard au sein de la distiibution, nous avons 
un peu plus de 22 % de chance de tirer un score inclus dans I’intervalle [0,00 ; 0,60], 

Comme la distribution est symetrique, Paire est identique pour les valeurs 
negatives de z. Si, par exemple, nous voulons connattre la probabilite de tirer au sort 
un score compris entre - 1 et - 2, i 1 nous suffit de regarder dans la table la valeur de 
1’aire pour les intervalles [0 ; 1] et [0 ; 2] puis de soustraire la premiere valeur de la 
seconde Nous obtenons ainsi la probabilite de tirer au hasard un score situe entre 1 
et 2, laquelle est identique a la probabilite de tirer au hasard un score situe entre - 1 
et - 2. Concretement, pour z = 1, I’aire sous la courbe est 0,3413 et pour z = 2, cette 
aire est 0,4772 Si nous soustrayons 0,3413 de 0,4772, nous obtenons I’aire pour 
1’intervalle [1 , 2] qui est egale a 0,1359. Cela signifie qu’aleatoirement, nous avons 



Figure 2.14 — Cdcul de differentes aires sous la courbe normale 
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13,59 % de chance de tirer un score compris entre les valeurs 1 et 2 de la distribution 
normale reduite. Ce pourcentage est le meme pour I’intervalle [- 2 ; - 1], 

La table de distribution normale reduite nous permet de calculer des valeurs 
ties utiles pour les praticiens. La figure 2.15 nous montre qu’au sein de la distribution 
normale : 

68,26 % des scores sont inclus dans I’intervalle [-lo ; +la], 

95,44 % des scores sont inclus dans I’intervalle [-2o ; +2o], 

99,74 % des scores sont inclus dans I'intervalle [-3a ; +3o]. 

Nous ne devons pas perdre de vue que ces valeurs sont theoriques. Dans la 

pratique psychologique et educative, nous ne mesurons que des variables discretes et 
nous n’obtenons qu’une approximation, souvent grossiere, de la distribution normale 
theorique. La figure 2.16 illustre 1’ecart que Ton peut observer entre la distribution 
des donnees observees et la distribution normale theorique. 

Plusieurs indicateurs peuvent nous informer de l’ecart entre la distribution observee 
et la distribution theorique. Les deux plus utiles sont ceilainement les indices d’asymetrie 
et de voussure qui sont presentes de maniere detaillee dans la section 2 de ce chapitre, 

4. Conclusion 

Ce deuxieme chapitre n’a certes pas fait le tour de toutes les methodes de description 
des donnees. Elies sont fort nombreuses et correspondent a des besoins particuliers. 
Celles qui out ete presentees sont les plus courantes : elles permettent de decrire 
les donnees dans differentes situations en tenant compte des objectifs vises et de la 
nature des echelles de mesure. 

Chaque methode de presentation graphique des donnees, de calcul des valeurs 
de tendance centrale, de dispersion, de symetrie, de voussure possede ses propres 
avantages ainsi que ses inconvenients. C’est pourquoi plusieurs methodes doivent etre 
employees en conjonction les unes avec les autres afin d’offrir une perspective d'en- 
semble qui soit exhaustive. II est egalement important de reconnaitre I’algorithme 
sur lequel se base le calcul des differentes caracteristiques d’une distribution. Plu¬ 
sieurs programmes de calcul. utilisant des algorithmes diflerents, peuvent presenter 
des valeurs calculees differentes de symetrie ou de kurtose. Dans de tels cas, il fiiut 
consulter la documentation fournie avec le logiciel pour etre en position d’interpreter 
correctement les resultats. 





Les theories des tests nous offrent differents modeles pour apprecier la valeur 
des resultats obtenus au moyen d’instruments de mesure. Chaque modele s’ap- 
puie sur une conception particuliere de la mesure et sur une serie de postulats 
quant a la nature des donnees et sur la maniere dont elles ont ete recueillies. 
Quels que soient les postulats, il est important de realiser que chaque modele 
theorique constitue une representation simplifiee du phenomene mesure. Chaque 
modele s’ajuste plus ou moins bien a ce qu’il cherche a decrire. C’est pourquoi 
une connaissance minimale des modeles de mesure est necessaire pour apprecier 
s’ils sont adaptes aux conditions de mesure rencontrees et s’ils permettent de 
repondre a nos besoins. 

1. Proprietes des scores composites 

La theorie classique des scores a pour principal objet le score total obtenu par chaque 
personne a un test. Or, ce score total est un score compose de la somme des resultats 
a chaque item pris individuellement. Avant d’aborder les questions de fidelite et de 
validite de ce score total, il est important de decrire comment le score total est lie aux 
items qui le composent. Ce qui nous preoccupe particulierement, c’est de connattre 
comment la variance de ce score total se repartit en fonction des differents items. La 
variance totale des scores est importante en theorie classique puisque, pour differen- 
cier les personnes, il faut que les resultats possedent une certaine variance. Il y a peu 
d’utilite a discuter de questions de fidelite ou de validite s’il n'y a aucune difference 
entre les individus. 

1.1 « COMBIEN FONT DEUX ORANGES PLUS TROIS CITRONS ? » 

Le score total est un score composite : il est le resultat de 1’addition des scores aux 
items du test. En effectuant cette addition, nous postulons que ces items mesurent sen- 
siblement le nienie trait. Que signifie, par exemple, le score global d’un test compose 
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de questions de geographie et de mathematiques ? C’est comme si l’on demandait : 
« Combien font deux oranges plus trois citrons ? ». 

Selon le degre de pertinence que nous souhaitons retrouver dans les unites de 
mesure de notre score total, nous choisirons d’additionner des elements provenant 
d’ensembles dont la definition en comprehension est tres stride ou, au contraire, rela- 
tivement large. A la question « combien font deux oranges et trois citrons ? », nous 
pouvons repondre de trois manieres differentes : 

1. nous pouvons refuser de faire l’addition, considerant qu’il s’agit de deux cate¬ 
gories differentes ; 

2. nous pouvons ramener chaque ensemble a tin ensemble qui les contient tous 
les deux (p.ex. la categorie des fruits) et effectuer I’operation a 1 ’interieur 
de cet ensemble plus large. Dans notre exemple, la reponse est alors « cinq 
agrumes » ou « cinq fruits » ; 

3 nous pouvons aussi ignorer les caracteristiques communes a chaque ensemble 
et repondre comme plusieurs jeunes enfants de six ans : « deux pommes plus 
trois oranges font cinq compotes ». 

Chacune des solutions precedentes trouve un echo dans le calcul des scores 
a un test. La premiere solution consiste a calculer non pas un score total, nrais un 
profil de scores. Le praticien refuse de confondre entre elles certaines caracteristiques 
et prefere calculer un score pour chaque sous-test ou chaque critere. En education, 
cette procedure est particulierement utilisee dans le cas de la mesure criteriee de 
performances complexes au moyen d’echelles descriptives (en anglais, « rubrics » , 
Wiggins, 1989). 

La seconde solution consiste a faire abstraction des particularites de chaque 
ensemble pour lie prendre en compte que les caracteristiques generates. L’addition 
d’items differents est possible dans ce contexte en postulant qu’ils out tous au moins 
quelque chose en commun. Ce quelque chose peut etre plus ou moins vague. Eu addi- 
tionnant deux citrons et trois oranges, on peut repondre « cinq agrumes » ou « cinq 
fruits ». La premiere des deux reponses est certainement la plus pertinente. Pour 
evaluer les apprentissages scolaires, plus les objectifs devaluation sont precis et bien 
hierarchises, plus grande sera la validite de contenu ou, si l’on prefere, la pertinence 
des resultats. Ce genre de preoccupation trouve sa place dans l’evaluation sommative. 
Lorsque le domaine a mesurer est vaste, il faut que les items puissent echantillonner 
une grande etendue de contenu. II en resulte que pour obtenir un score total qui 
couvre une matiere plus vaste, il faut faire abstraction de certaines caracteristiques 
des items. 

La troisieme solution reviendrait a additionner les resultats a des items sans 
savoir de fag on precise ce que chacun mesure. C’est le danger que l’on court a addi¬ 
tionner un meli-melo d'items qui ont ete rediges sans cadre prealable. A la question 
de depart, les reponses « cinq vegetaux » ou « cinq choses » n’ont de precis que le 
chiffre. 

La theorie classique des scores ne traite pas que de la precision de la valeur 
numerique. La qualite ou la pertinence de cette valeur est traitee separement par 
P intermediate d’etudes de validite. Face a un resultat de soixante pour cent, la fide¬ 
lite consiste a se demander : « est-ce bien soixante ? », alors que la validite pose la 
question « soixante pour cent de quoi ? ». Pour determiner ce que signifie un score 
total, il faudra done depasser la question de sa precision. En aucun cas, une grande 
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assurance en la valeur numerique des resultats ne doit nous faire oublier la question 
importante de sa signification, que nous verrons dans le chapitre 4 consacre a la 
validite. 


1.2 Variance tot ale des resultats a un test 

Si nous sommes interesses a ditTerencier entre eux des individus, alors la variance 
des resultats est une caracteristique importante. Rappelons que la variance d’une 
distribution de resultats est egale a la soninie des ecarts quadratiques (au cane) 
a la moyenne divisee par le nombre de resultats. C’est ce que traduit I’equation 
suivante : 

. V(.Y - X) 2 

s' x = --- (Equation 2.10, chapitre 2) 

n 

Partant de cette formule, nous pouvons aisement nous rendre compte que la variance 
d’un ensemble de scores sera d’autant plus grande que plusieurs sujets obtiennent 
des resultats differents de la moyenne. Par exemple, un individu qui est a 10 points 
de la moyenne ajoute 100/n a la variance, alors qu’un individu qui est a 2 points de 
la moyenne n’ajoute que 4/n a la variance totale, soit 25 f'ois moins pour un ecart a 
la moyenne 5 fois plus petit. En fait, un resultat extreme peut meme faire paraitre la 
variance totale des scores bien superieure a ce qu’elle est en realite Le tableau 1 en 
presente un exemple concret. 

Le tableau 3.1 presente cinq cas differents. Dans chaque cas, seule la pre¬ 
miere valeur est changee, celle du sujet #1 (valeurs en gras italiques). La situation 
initiale (cas # 1) est celle d’une distribution dont la moyenne est de 84,73 et la 
variance de 58,93. Lorsque, comme dans le cas #2, I’on change la valeur du pre¬ 
mier sujet de 71 a 81 (en direction de la moyenne du groupe), la variance totale 
diminue a 42,23 (un changement de - 16,70). Par contre, si le meme changement 
de 10 points s’effectue dans une direction opposee a la moyenne (cas #3), la 
variance totale passe de 58,93 a 92,15 (un changement de + 33,22). Lorsque ce 
changement n’est que de deux vers la moyenne (cas #4), la variance passe de 
58,93 a 54,26, une difference de 4,67. Le changement de variance est presque 
3 fois plus grand lorsque le score du sujet #1 voit son ecart a la moyenne passer 
de 2 a 10. Enfin, le cas #5 illustre ce qui se produit lorsque l’ecart de deux s’ef¬ 
fectue en direction opposee a la moyenne. La variance passe de 58,93 a 64,25, 
une difference de 5,32 En comparaison avec le cas #3, il s’agit d’une difference 
bien moindre, alors que pour un ecart de 10 oppose a la moyenne le changement 
de variance produit etait de 33,22 (92,15 - 58,93). Le tableau 3.1 illustre a quel 
point une erreur meme minime de codage des donnees peut avoir une grande 
repercussion sur la variance, alors que la moyenne est pour sa part beaucoup 
moins affectee par ces changements. En outre, le poids des resultats extremes 
depend aussi de la taille des echantillons Plus I’echantillon est petit, plus l’im- 
pact sera grand sur la variance. 

Voyons a present comment la variance est affectee par les resultats aux items 
d’un test. En effet, chaque item possede un impact particulier sur le score total a un 
test, sur sa moyenne et aussi sur sa variance. 

Prenons un exemple fort simple. Supposons qu’un item soit reussi par tous 
les sujets. Cet item ne possede aucune variance. Son role dans le score total se reduit 
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Tableau 3.1 — Cinq cas de variance totale 



Situation 

Changement 

Changement 

Changement 

Changement 

Sujet # 

initiale 

de 10 vers 

de 10 oppose 

de 2 vers 

de 2 oppose 


la moyenne 

a la moyenne 

la moyenne 

a la moyenne 


Cas 1 

Cas 2 

Cas 3 

Cas 4 

Cas 5 

1 

71 

81 

61 

73 

69 

2 

75 

75 

75 

75 

75 

3 

79 

79 

79 

79 

79 

4 

82 

82 

82 

82 

82 

5 

84 

84 

84 

84 

84 

6 

85 

85 

85 

85 

85 

7 

86 

86 

86 

86 

86 

8 

87 

87 

87 

87 

87 

9 



90 

90 

90 

10 

94 

94 

94 

94 

94 

11 

99 

99 

99 

99 

99 

Somme 



922,00 

934,00 


Moyenne 

84,73 

85,64 

83,82 

84,91 

84,55 

Carre des ecarts 

648,18 

464,55 

1 013,64 

596,91 


Variance 

58,93 

42,23 

92,15 

54,26 

64,25 

Ecart-type 

7,68 

6,50 

9,60 

7,37 

8,02 


a accroTtre la moyenne. Par contre, il n’ajoute aucune information supplementaire 
nous permettant de departager entre elles les personnes ayant repondu au test. La 
nieme situation prevaudrait dans le cas d’un item pour lequel tous les sujets auraient 
echoue. 

Le tableau 2 illustre cette situation. Considerons un test constitue de deux 
items X = itemJ + item2 administre a sept (7) personnes. Ajoutons-y I’item 3 reussi 
par tous. Le resultat du nouveau test comprenant maintenant trois items (item! 
+ item2 + item3) indique que la moyenne s’est accrue de 1 : la moyenne de I’item 3 
+ la moyenne du score X constitue des deux premiers items. Quant a la variance 
totale du nouveau test, elle n’a pas change. L’item 3 etant reussi de fa<;on constante 
par tous, sa variance est nulle et par consequent I’ajouter au score total ne change 
rien a sa variance. 

L’item 4 n’est pas reussi par tous En fait, il possede une variance de 0,24. Si 
on ajoute son resultat a celui du score X, on remarque que la aussi la moyenne aug- 
mente Coinme precedemment, la nouvelle moyenne est le resultat de la somme de la 
moyenne des deux premiers items plus celle de I’item 4. A la difference de I’item 3, 
cependant, I’ajout de I’item 4 change egalement quelque chose a la variance totale du 
test. La variance du test X + item4 est en effet de 2,20, alors qu’elle n’etait que de 0,98 
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Tableau 3.2 — Variance d'un score composite. Exemple 1 


Sujet # 

/tl 

It2 

X=/fl +//2 

It3 

It4 

X+//3 

X + //4 

1 

1 

1 

2 

1 

1 

3 

3 

2 

0 

0 

0 

1 

0 

1 

0 

3 

1 

1 

2 

1 

1 

3 

3 

4 

0 

0 

0 

1 

0 

1 

0 

5 

0 

0 

0 

1 

0 

1 


6 

1 

1 

2 

1 

1 

3 

3 

7 

1 

1 

2 


1 

3 

3 

Moyenne 

0,57 

0,57 

1,14 


0,57 

2,14 

1,71 

Variance 

0,24 

0,24 

0,98 

0,00 

0,24 

0,98 

2,20 


Matrice des variances-covariances 



Item 1 

Item 2 

Item 3 

Item 4 

Item 1 

0,24 

0,24 

0,00 

0,24 

Item 2 

0,24 

0,24 

0,00 

0,24 

Item 3 

0,00 

0,00 

0,00 

0,00 

Item 4 

0,24 

0,24 

0,00 

0,24 


pour le test X. Notez bien que la variance totale du test X + item4 est bien plus elevee 
que la soninie des variances du test X et de I’item 4. En effet, 0,98 + #,24 < 2,20. 
On peut aussi remarquer que la variance totale du score X est bien superieure a la 
somme des variances des items I et 2 (0,24 + 0,24 < 0,98). A quoi peut-on attribuer 
ces differences ? 

Voyons I’exemple du tableau 3. Dans ce deuxieme exemple, la somme des 
variances des items 1 et 2 est superieure a celle du score total X (0,24 + 0,20 > 0,20). 
Comment cela est-il possible ? Un tel resultat nous amenerait a conclure qu’il est plus 
facile de differencier les personnes a partir du resultat a un seul item au test qu’a par- 
tir des resultats au test entier. Pourquoi cette difference entre ce que nous observons 
au tableau 2 et au tableau 3 ? 

La reponse se situe dans I’examen attentif de la relation qui existe entre les 
deux items constituant chacun des tests. Dans le tableau 2, il y a reussite et echec 
simultanement aux deux items. Dans le tableau 3, (’information fournie par les items 
est plus contradictoire : pour plusieurs sujets, la reussite a un item s’accompagne d’un 
echec a I’autre item et vice versa. Nous pouvons dire que les resultats au premier test 
sont homogenes, alors que les resultats au second test sont heterogenes. 

Lorsque nous devons constituer un score total, il est preferable d’additionner 
ensemble des items homogenes plutot que des items heterogenes. En fait, il n’y pas 
d’interet a additionner des items heterogenes lorsque notre objectif est de differencier 
des individus. Leurs valeurs differentes ont tendance a reduire la variance du score 
total au test. 

































98 


La fidelite des resultats 


Tableau 3.3 — Variance d'un score composite. Exemple 2 


Sujet # 

fri 

It2 

X=lll+lf2 

It3 

M 

X+//3 

X + It4 

1 

1 


1 

1 

1 

2 

2 

2 


1 

1 

1 

1 

2 

2 

3 

1 

0 

1 

1 

1 

2 

2 

4 

0 

0 

0 

1 

0 

1 

0 

5 

0 

0 

0 

1 

0 

1 

0 

6 

0 

1 

1 

1 

1 

2 

2 

7 

1 

0 

1 

1 

1 

2 

2 

Moyenne 

0,43 

0,29 

0,71 

1,00 

0,71 

1,71 

1,43 

Variance 

0,24 

0,20 

0,20 

0,00 

0,20 

0,20 

0,82 


Matrice des variances-covariances 



Item 1 

Item 2 

Item 3 

Item 4 

Var. totale 

Item 1 

0,24 

-0,12 

0,00 

0,12 

0,24 

Item 2 

-0,12 

0,20 

0,00 

0,008 

0,16 

Item 3 

0,00 

0,00 

0,00 

0,00 

0,00 

Item 4 

0,12 

0,08 

0,00 

0,20 

0,40 

Items 1 a 4 





0,80 


1.3 Moyenne et variance d'un score composite 

Nous pouvons done conclure de 1’observation de ces deux exemples que la moyenne 
d’un score composite est la somme des moyennes de ses composantes, exprimee par 
1’equation suivante : 

C = £x, (3-0 

Quant a la variance du score composite C, nous pouvons demontrer qu’elle est 
egale a la somme des variances et des covariances des items qui composent le test. 
Coniine nous 1’avons vu egalement dans les tableaux 2 et 3, la relation entre la 
variance d’un score total et la variance de ses composantes n’est pas aussi simple. 
En plus de la variance des items individuels, la covariance entre les items joue un 
role important dans 1’estimation de la variance du score total. La covariance est 
une mesure du degre dissociation entre deux variables X et Y. Elle sert a exprimer 
dans quelle mesure deux variables differentes fluctuent de maniere conjointe dans 
le meme sens (valeur positive) ou dans le sens contraire (valeur negative). Le calcul 
de la covariance est similaire a celui de la variance et il est fourni par liquation 
suivante : _ _ 

Zix-xyy -Y) 


n 


(3.2) 
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II est facile de constater que la variance totale des scores est constitute de 
la somme des variances et covariances entre les items. En ef'fet, si I’on additionne 
tous les elements de la matrice des variances-covariances du tableau 3, on retrouve 
la meme valeur de variance que celle calculee pour le test constitue des quatre items 
(0,82 ou 0,8 selon le degre de precision des calculs). 

Si l’on compare a nouveau les tests des tableaux 2 et 3, on s’apercevra que la 
variance totale du test compose des trois items 1,2 et 4 est bien superieure lorsqu’il 
s’agit du premier test que lorsqu’il s’agit du second test. Elle est de 2,20 dans le 
premier test et de 0,82 dans le second test. La variance est dans ce cas-ci presque 
trois f'ois superieure dans le test homogene que dans le test heterogene. L’impact 
de I’item 4 est egalement interessant. Dans le premier test, I’item 4 a contribue a 
augmenter la variance totale de 0,98 a 2,20 (deux f'ois plus). Dans lc second test, 
I’item 4 a contribue a f'aire passer la variance totale de 0,20 a 0,82 (quatre f'ois 
plus). 

La variance totale d’un test depend done non settlement de la variance de 
ses items individuels, mais aussi de leur homogeneite. Plus la covariance entre les 
items est elevee, plus la variance totale au test sera grande. En fait, il est possible de 
demontrer que la variance totale a un test est le resultat de la somme des variances 
des items et des covariances entre items. L’encadre 1 fait la preuve aigebrique de cet 
enonce. 

La figure 1 represente la matrice des variances-covariances entre items. II s’agit 
d’une matrice carree symetrique. Les variances de cliaque item figurent en diagonale 
et les covariances de part et d’autre de la diagonale principale. Puisque la covariance 
ij est la meme que la covariance ji. les memes valeurs se repetent symetriquement par 
rapport a la diagonale de la matrice. 

Cette figure permet de nous rendre compte que la covariance entre les items 
joue un role proportionnellement beaucoup plus important que la variance des items 
individuels dans la variance totale des resultats a un test. La variance d’un test comp- 
tant j items sera le resultat de la somme de j variances d'items et de j(j-J) covariances. 
Si ainsi Ton ajoute 10 items a un test en comportant deja 10, sa variance totale sera 
augmentee de la variance individuelle de 10 items supplementaires, mais aussi de 380 
covariances (20 x 19) comparativement a 90 (10 x 9) au depart. C’est done dire que 
ces 10 nouveaux items contribueront a accroTtre la variance totale des resultats non 
pas du fait de leurs variances individuelles, mais surtout dans la mesure ou ils cova- 
rient de maniere importante avec les items deja presents. Pour cela, les items ajoutes 
doivent constituer un ensemble homogene avec les items de depart. 


2 


"ii 

0,2 

°13 

0,4 

"15 

a 2 i 

"22 

a 23 

"24 

"25 

*31 

"32 

2 

°33 

"34 

"35 

a 4 i 

"42 

°43 

2 

"44 

"45 

"si 

"52 

"53 

"54 

2 

°55 


Figure 3.1 — Matrice des variances-covariances et variance totale 
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ENCADRE 3.1 

Soit un test C compose de deux scores X, el X 2 . Transformons ces scores en scores 
centres a la moyenne, c, x,, x 2 afin de simplifier les calculs de la variance et de 
la covariance. 

c = x, + x 2 (3.3) 


['expression de la variance du score composite c est donnee par les equations 
suivantes, en remplapant c par ses valeurs. 


ol - 


Ic 2 


(3.4) 


a 2 = 


L (x, + * 2 ] 


(3.5) 


Si Ton developpe la derniere expression, Ton obtient : 

2 L x ? + 2 x,x 2 + x 2 


(3.6) 


En repartissant la sommation sur chaque membre de I'addition, on peut reecrire 
[equation (3.6), de la facon suivante : 

o c =-+ 2-+- (3.7) 

n n n 


Le premier et le dernier terme de [addition ne sont autres que [expression de la 
variance des items (exprimee en scores centres). Le terme du centre est [expres¬ 
sion de la covariance entre les items. On peut done reformuler [equation (3.7) en 
termes de variances et de covariances : 

°c = a ? + + 2a 12 (3.8) 

Dans le cas de tests possedant un nombre j d'items, il est possible de generaliser 
la demonstration precedente de maniere a prouver que : 

o! =Io, 2 +2lo i( (3.9) 

ou L a . represente la somme des variances des items et Loj, la somme des 
covariances des items pris deux a deux. 


1.4 Implications pour la construction d'un test 

Des observations precedentes, il ressort trois consequences principales pour la 
construction d'un test : 

• augmenter le nombre d’items accrott la variance totale d’un test dans la mesure 
ou les items supplementaires sont homogenes avec les items deja presents dans 
le test ; 

• les items ayant un contenu similaire sont plus susceptibles d’avoir une cova¬ 
riance elevee et ainsi de contribuer davantage a la variance totale des resultats 
au test ; 
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■ pour contribuer de fa^on significative a la variance totale du test, 1’item doit de 
preference etre de difficulty moyenne : un item trop facile oil trop difficile n’a 
qu’une faible variance et une faible covariance. 

Lorsque 1’objectif est de differencier les personnes, ces observations nous met- 
tent en garde contre la tentation d’inclure trop d’items differents et sans rapport entre 
eux dans le score total d’un individu. Par exemple, 1’enseignant qui souhaite mieux 
differencier ses eleves en ajoutant de nouveaux items dans son examen aura avantage 
a prendre des items supplementaires evaluant les memes objectifs que ceux deja eva- 
lues par le test initial. S’il choisit au contraire de faire porter les items supplemen- 
taires sur de nouveaux objectifs sans lien avec ceux deja evalues, il risque de gagner 
bien pen en differenciation des scores des eleves. II y aurait alors avantage a calculer 
des scores totaux separes et a etablir un profil de scores. 

Une bonne variance des resultats est une condition necessaire quoique non suf- 
fisante pour obtenir des resultats fideles et valides. Sans anticiper sur les prochaines 
sections, il est important de faire ressortir que dans le contexte d’une evaluation nor¬ 
mative, la variance joue un role important. Comment selectionner les meilleurs eleves 
pour un corns d’art plastique si les resultats sur lesquels on doit se baser sont sem- 
blables et ne permettent pas de les diff erencier ? 

Si I’objectif n’est pas de differencier les sujets, alors il n’est pas aussi essentiel 
d’obtenir une variance elevee des resultats. 11 existe des situations ou celle-ci n’est 
pas une condition importante, coniine dans le cadre de la pedagogie de la maitrise ou 
1’on s’attend a ce que la presque totalite des eleves atteigne les objectifs d’appren- 
tissage. Dans de telles circonstances, il est beaucoup moins important que 1'examen 
puisse etablir des differences entre les individus. Tout au contraire, dans le cas de la 
maitrise, le but de 1’enseignant consiste plutot a faire disparaitre ces differences par 
un enseignement approprie. 

Enfin, au-dela des strictes considerations de variance, il est important de se 
rappeler qu’il peut etre beaucoup plus facile d’inteipreter des resultats homogenes 
que des resultats heterogenes. 11 y a peu d’interet a differencier les personnes si I’on 
ignore en quoi exactement elles sont differentes. Si un score total est un ensemble 
d’items heterogenes, alors il devient presque impossible d’identifier les causes veri- 
tables qui font de chaque examine un individu different des autres. 

2. La theorie classique des scores 

C’est Spearman (1907) qui a jete les fondements de la theorie classique des scores. 
La theorie, dans sa forme actuelle, est due principalement aux travaux de Gulliksen 
(1950), Magnusson (1967) et de Lord et Novick (1968). 

2.1 POSTULATS DU MODELE 

La theorie classique permet de repondre simplement a plusieurs des questions soule- 
vees par la fidelite des scores. Elle est sans doute le modele le plus simple de ceux 
que nous verrons. Ce modele a 1’avantage de pouvoir etre utilise dans une grande 
variete de situations parce que ses postulats de depart sont faibles - au sens d’aises 
a satisfaire - et peu nombreux, ce qui n’est pas le cas des modeles de la reponse aux 
items. 
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La theorie classique des tests est aussi appelee « theorie classique des scores » 
puisque son objet d’interet est le score total obtenu par line personne a un test. Les 
postulats principaux de la theorie classique sont expliques dans les paragraphes sui- 
vants : 

Postulat 1 

La theorie classique des scores postule que le score observe d’un individu resulte de 
la sonnne entre le score vrai de I’individu (V : une constante) et l’erreur de mesure 
associee a ce score (Zs : une variable aleatoire) : 

X = V + E (3.10) 

II resulte de cette equation que le score observe X est egalement une variable alea¬ 
toire. Par exemple, si le score vrai d’un eleve est 84 %, il est possible que celui-ci 
obtienne 87 % ou 76 % a un examen. Toutefois, la probability d’obtenir un score 
ties superieur ou tres inferieur a 84 % decroit au fur et a mesure que I’on s’eloigne 
du score vrai. En fait, l’erreur de mesure se distribue normalement, ce qui fait que le 
score observe lui-meme se distribue normalement autour du score vrai. C’est ce qui 
est i I lustre par la figure 2. 

Postulat 2 

Ce postulat est consequent avec le premier. II stipule que la valeur attendue pour le 
score vrai est estimee par la moyenne des scores observes. Ce postulat signifie que le 
score vrai d’un individu est I’esperance mathematique des scores observes. 

ltW=e(A] = V (3.11) 

En d’autres mots, la precision d’un score observe s’accroTt avec le nombre d’obser- 
vations sur un meme individu. En effet, si I’on devait administrer plusieurs fois le 
meme test a la meme personne, la moyenne des resultats nous fournirait, a la limite, 
son score vrai. Le score vrai peut ainsi etre considere comme la moyenne de la dis¬ 
tribution theorique des scores observes de chaque individu, en supposant qu’il soit 
possible de lui administrer de maniere independante le meme test a plusieurs reprises. 
La dispersion des scores observes X autour du score vrai V constitue l’erreur type de 
mesure pour cet individu pour I’ensemble des passations du test. 



Resultat obtenu (en %) 


Figure 3.2 — Distribution theorique des scores observes autour du score vrai 
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Postulat 3 

II n’y a pas de correlation entre 1’erreur de inesure et le score vrai dans la population 
des individus a qui I’on administre le test : 

P„=0 (3.12) 

Ceci signifie, par exemple, que I’erreur aleatoire de mesure ne sera pas plus grande 
si mi individu possede un score vrai eleve on plus faible s’il possede un score vrai 
faible. Une telle situation se produirait, par exemple, si un enseignant corrigeait plus 
attentivement les copies des eleves faibles que les copies des eleves forts et que, par 
consequent, les erreurs de correction etaient plus importantes chez les eleves forts 
(corriges plus rapidement) que chez les eleves faibles (corriges plus attentivement). 

Postulat 4 

Ce postulat stipule que les erreurs a deux tests differents (£, et E >) ne sont pas cor- 
relees entre elles : 

P*E, =0 (3.13) 

Ceci peut se produire lorsque, par exemple, des personnes fatiguees obtiennent des 
notes plus faibles a differents tests administres en fin de journee. Dans ce cas, les 
erreurs des tests administres en fin de journee sont liees entre elles pour ces groupes 
de repondants puisqu’elles resultent d’un meme facteur sous-jacent, la fatigue. 

Postulat 5 

II n’y a pas de correlation entre l’erreur de mesure a un test et le score vrai a un autre 
test : 

P^=0 (3.14) 

Supposons qu’un questionnaire a clioix de reponses mesure la creativite et que, plus 
le score de creativite est eleve, plus l’eleve est porte a repondre au hasard lorsqu’il 
ignore la reponse. Dans cette situation, il y aurait une correlation entre le score vrai 
au test et l’erreur aleatoire de mesure qui ne serait pas la meme pour les individus 
creatifs que pour les individus non creatifs. En fait, on peut affirmer que le postulat 5 
ne tient pas des que le test mesure une caracteristique de I’ individu qui exerce une 
influence directe ou indirecte sur sa fa^on de repondre au test, telle que la tendance a 
deviner, a (richer, a omettre certaines categories de reponses, etc. 

Postulat 6 

Deux tests X et X' sont paralleles si et settlement si leurs scores vrais et leurs erreurs 
types de mesure sont egales : 

V = V 

CT £ =o r (3.15) 

A cause du postulat 1 qui stipule que le score observe est la somme d’un score vrai et 
d’un score d’erreur aleatoire, il decoule que deux tests paralleles auront sensiblement 
la meme moyenne et la meme variance des scores observes. 

Postulat 7 

Il definit ce qu’est un test i-equivalent (prononcer « tau-equivalent »). Deux tests sont 
consideres comme x-equivalents lorsque leurs scores vrais different par une constante 
additive k. 

V, = V 2 + k 


(3.16) 
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Ainsi, si trois sujets obtiennent 10, 23 et 19 a un test et qu’ils obtiennent 17, 
30 et 26 a un autre test, ces deux tests sont T-equivalents, la constante k valant 7. 11 
decoule de cette derniere definition que les tests paralleles rencontrent les exigences 
des tests T-equivalents, mais la reciproque n’est pas vraie. 

2.2 Implications de la theorie classique des scores 

L’ensemble des sept postulats de la theorie classique se resume facilement : les 
erreurs aleatoires de mesure doivent etre independantes en toutes circonstances. Ceci 
signifie que les conditions de testing doivent etre telles qu’il n’y a pas de correlation 
entre le score vrai d’un sujet et l’erreur de mesure, ni entre I’erreur de mesure a un 
test et 1’erreur de mesure a un autre test. Ce sont la des conditions minimales sans 
lesquelles les scores observes deviennent diflicilement interpretables. Par exemple, 
pour demontrer que deux items a la fin d’un test mesurent bien la meme caracte- 
ristique, il faut ecarter l’hypothese que la correlation entre ces deux items puisse 
etre le resultat d’erreurs de mesure dues a la fatigue, a l’ennui ou a un manque de 
motivation 

La theorie classique tient compte d’une erreur strictement aleatoire. Si les 
postulats de base sont respectes, c’est-a-dire si les differentes sources d’erreur sont 
independantes les unes des autres, alors celles-ci pourront s’annuler de sorte que sur 
un grand nombre de mesures repetees, 1’esperance mathematique des scores observes 
soit le score vrai de l’individu. Si ces erreurs ne sont pas independantes, alors leurs 
effets risquent d’etre non nuls et l’equation de depart (postulat #1) est inadequate 
pour representer la situation que l’on cherche a decrire. 

D’autres sources d’erreur peuvent invalider nos resultats. II s’agit de sources 
d’erreur dont l’effet est constant et dont la resultante est non nulle : les erreurs sys- 
tematiques. Ces sources doivent faire fob jet d’une etude particuliere : la validite des 
resultats. Par exemple, il y a eireur systematique lorsqu’un test est trop facile ou trop 
difficile. Deux eleves, dont les scores vrais en mathematiques sont differents, peuvent 
obtenir le meme score observe de 10/10 lorsque l’examen est trop facile. De maniere 
identique, des eleves handicapes auditifs ou handicapes visuels verront leurs scores 
vrais en orientation spatiale systematiquement sous-estimes par des epreuves senso- 
rielles auditives ou visuelles. Comme le handicap est permanent, celui-ci fait partie 
du score vrai de l’eleve a fepreuve en question. C’est pourquoi on pourrait reecrire 
l’equation (3.10) de la maniere suivante : 

X=V+c\ + e u (3.17) 

Dans cette derniere expression, le score observe du sujet est la somme d’un score 
vrai, d’une eneur systematique e s et d’une erreur aleatoire e a . Par exemple, un ensei- 
gnant qui ferait porter une grande partie de son exarnen sur line partie sans impor¬ 
tance de la matiere ou encore sur des objectifs dont les eleves n’ont pas ete informes, 
mesurerait davantage ce qui n’est pas pertinent. Dans un tel contexte, 1’erreur alea¬ 
toire de mesure serait derisoire par rapport a l’erreur systematique introduite. Bref, ce 
test fournirait des resultats precis (fideles), mais sans grande validite. 

En fait, il est possible de representer les notions de validite et de fidelite en 
fonction de la proportion de la variance des scores observes imputable a de la variance 
pertinente (a;;), a de la variance non pertinente (ct : ) ou a de la variance d’erreur (a: ). 

i » i i x t f/ 

La figure suivante explique le rapport entre ces differentes variances. 
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Test 3 


Figure 3.3 — Repartition des sources de variance dans trois tests differents 

De la figure 3.3, il ressort que le but du constructeur de test est de maximiser 
la part du score vrai qui est pertinente pour ce qu’il souhaite mesurer, tout en minimi- 
sant I’erreur aleatoire de mesure. Pource faire, il faut que la variance des scores vrais 
occupe une grande proportion de la variance des scores observes et que la variance 
d’erreur systematique soit minimale. Parmi les tests 1 a 3 de la figure 4, le test 3 est 
le plus fidele et le plus valide : c’est celui pour lequel la proportion de la variance des 
scores observes qui soit de la variance imputable aux scores vrais est la plus elevee. 
Par contre, le test 3 n’est pas plus fidele que le test 2. car tous deux component la 
meme proportion de la variance des scores observes qui est de la variance d’erreur 
aleatoire. Enfin, le test 1 est le moins fidele des trois tests Tout comme le test 2, il 
est moins valide que le test 3. De plus, une plus grande proportion de la variance des 
scores observes provient de la variance d’erreur aleatoire, ce qui le rend moins fidele. 

Il ressort aussi de la figure 3.4 qu’un test peut-etre fidele meme s’il ne mesure 
pas ce que 1’on souhaite. Dans ce cas-ci, la proportion de la variance observee consti¬ 
tute d’erreur systematique est ties importante. Ceci assure une grande precision et 
une grande stabilite aux scores, mais la variance est sans rapport avec la caracteris- 
tique que nous souhaitons mesurer. Il est done possible qu’un instrument fidele, un 
test trop facile par exemple, ne mesure pas ce que nous souhaitons mesurer. De bons 
indicateurs de fidelite, meme s’ils permettent d’envisager que les resultats au test 
puissent etre valides, ne sont pas suffisants a eux seuls pour assurer la pertinence des 
scores. 

Prenons pour exemple une mesure bien connue de la competition sportive : 
le tir a I’arc. Lorsque, comme 1’indique la situation A de la figure 3.5, un tir groupe 
rate systematiquement la cible, on peut parler de tir fidele, mais pas de tir valide. 11 
suffira au tireur de corriger le biais de son tir pour le rendre valide et ainsi atteindre 
le 1000 ou I'neil tie boeitf. Par contre, un instrument non fidele ne saurait etre valide, 
a cause du manque de precision de la mesure. C’est le cas d’un tir disperse sur toute 
la surface de la cible (situation B). Le probleme de ce tireur est beaucoup plus delicat 
que le premier. Comme son tir est aleatoire et non systematique, il y a peu de choses 
que nous puissions faire pour 1’aider a corriger son tir. Un premier bon pas dans cette 
direction serait de s’assurer que le tireur possede au moins un tir groupe. Enfin, la 
situation C represente une situation valide et fidele : un tir groupe qui touche le mille. 
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Test 4 


Figure 3.4 — Repartition de la variance d'erreur dans un test peu valide, mais fidele 



Figure 3.5 — Trois tirs a la cible differents en termes de validite et de fidelite 

Ce dernier exemple illustre pourquoi la fidelite est un indicateur si important 
de la qualite des resultats. Sans fidelite ou, si Ton prefere, sans mesure precise, toute 
discussion sur la validite devient futile et tout espoir de rectifier notre tir est vain tant 
que les resultats manqueront de precision. 

Si la fidelite d’un instrument de mesure est si importante, que peut-on faire 
pour l’augmenter ? Disons pour Finstant que le nombre d’items joue un role impor¬ 
tant dans la precision de la mesure. Plus il y a d’items entrant dans le calcul du score 
observe, plus celui-ci a des chances d’etre precis a condition que ces items mesurent 
bien la meme chose. Ceci decoule du postulat 2 qui indique que la moyenne des 
scores observes d’un individu tend vers son score vrai. Plus il y aura d’items, plus 
I’erreur type de cette moyenne sera faible et, par consequent, plus l’erreur de mesure 
sera reduite. Il y a lieu de souligner que la variance des scores vrais augmente plus 
vite que la variance d’eneur lorsqu’on ajoute des items homogenes a un test. 

2.3 Definitions de la fidelite 

Le praticien a besoin d’avoir une idee de I’ecart qui existe entre la note obtenue et la 
note vraie. La fidelite nous renseigne sur le degre de relation entre les deux notes. Il 
est possible de formuler plusieurs definitions de la fidelite a partir des sept postulats 
de la theorie classique. Certaines de ces definitions n’ont qu’un interet theorique. 
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D’auties ont un interet pratique car elles nous permettent d’estimer la fidelite des 
resultats a un test s’il y a de bonnes raisons de croire que le modele de la theorie 
classique s’applique. Nous verrons les trois delinitions generales suivantes : 

Le coefficient de fidelite (definition theorique) 

C'est la proportion de la variance des scores observes qui est imputable aux scores 
vrais- Elle signilie que plus le test est precis, plus la variance des scores observes 
est due a la variance des scores vrais et non a des fluctuations du hasard. Concrete- 
ment, le coefficient de fidelite p vx . = 0,81 signilie que 81 % de la variance des scores 
observes est attribuable a la variance des scores vrais. L’equation (3.18) illustre cette 
relation. 

P =^T (3.18) 

L'indice de fidelite 

C’est la correlation entre les scores observes et les scores vrais. Lorsque cette cor¬ 
relation est egale a 1 (lidelite parfaite), scores vrais et observes sont egaux et il n’y 
a pas d’erreur de mesure. Lorsque cette correlation est egale a 0, alors chaque score 
vrai peut correspondre a n’importe quel score observe et I’erreur de mesure devient 
egale a I’ecart type des scores observes. L’ecatl type des scores observes est en effet 
la plus grande erreur de mesure possible. Voici la representation algebrique de cette 
definition de l’indice de lidelite : 


P =2 

I .tv 


XV 


No a. 


(3.19) 


L’equation (3.19) represente le calcul de la correlation pour des scores centres (ecarts 
a la moyenne). Elle n’a aucun interet pratique puisque nous ne connaissons pas la 
valeur du score vrai v. Sur le plan conceptuel, elle nous permet de comprendre cepen- 
dant que meilleure est la fidelite, meilleure sera la prediction du score vrai a partir 
du score observe. 


Le coefficient de fidelite (definition operationnelle) 

11 est estime a partir de la correlation entre scores observes a deux formes paralleles. 
Puisque par- definition, les scores vrais d’un meme sujet a deux tests paralleles sont 
egaux, la correlation entre les scores observes a deux tests paralleles nous fournit 
par le fait meme la proportion de la variance des scores observes qui resulte de la 
variance du score vrai. En effet, la correlation des scores vrais de deux formes paral¬ 
leles entre eux nous fournit la variance des scores vrais et puisque nous connaissons 


ENCADRE 3.2 

Au depart, nous pouvons poser que la correlation entre les scores observes a deux 
tests paralleles est representee par I'equation suivante, representant lo correlation 
entre les scores centres x, et x 2 aux deux tests paralleles. 


No. a. 


(3.20) 


Or, nous savons a partir du postulat #1 de la theorie classique que x, et x 2 peu- 
vent etre exprimes en termes de scores vrais v, et v 2 : 
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' [3.21) et (3.22) 

Xj = v 2 + e 2 

Nous pouvons developper I'expression de la correlation entre deux tests paralleles 
en remplapant les scores observes x, et x 2 par leur valeur exprimee en scores 
vrais. Ceci nous donne I'expression suivante : 

= ^ e i l (3 23) 

X, Xj 

Une fois la multiplication developpee au numerateur, nous obtenons I'expression : 

, S ^ + e \ e 2 (3 24) 

No a, 

X, Xj 

Enfin, suite a la distribution de la sommation, I'expression de la correlation entre 
scores centres a deux tests paralleles prend la forme suivante : 

A + 13.25) 

’ ’ Na„a x Na x a x Na x a x _ N« x a x 

Cette derniere expression peut maintenant etre grandement simplifiee. Les postu- 
lats 4 et 5 stipulent en effet les relations suivantes : 

P,„ = 0 (3.26) 

P^-P^-0 13.27) 

Ceci permet done d'egaler a 0 les trois derniers termes de I'addition de I'equa- 
tion 3.25, puisqu'il s'agit en fait de la correlation entre erreurs de mesure (3.26) et 
de la correlation entre score vrai et erreur de mesure (327), L'equation devient done 
la suivante : 

v,v 2 (3.28) 

P *’ x ’ ^ No a 

x, x 7 

Cette equation peut etre reecrite en tenant compte du postulat 6 de la theorie clas- 
sique qui definit les proprietes des tests paralleles de la maniere suivante : 

v, =v 2 (3.29) 


En substituant ces relations dans l'equation 9, il est possible d'ecrire 


Noo 


= I 3 - 32 ) 

En fait, ce dernier developpement est possible car la variance des scores observes 
a chaque test parallele est egale par definition et que les scores vrais a chaque 
test parallele sont les memes (3.29 et 3.30). Dans ce dernier cas, la covariance 
entre scores vrais a deux tests paralleles est egale a la variance des scores vrais. 
Cette demonstration illustre que la correlation entre deux formes paralleles d'un 
test nous permet d'en estimer la fidelite pour autant que les postulats de la theorie 
classique soient adequats pour decrire nos resultats. 
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deja la variance des scores observes, il est facile d’estimer la fidelite du test en cal- 
cuiaiit la proportion de la variance des scores observes qui resulte de la variance du 
score vrai. Bref, les tests paralleles nous fournissent une methode pour operationna- 
liser l’estimation de la variance des scores vrais lorsque les postulats de base de la 
theorie classique sont raisonnablement satisfaits. 


P„ = I 


XA-, 


No o 


(3.20) 


Le lecteur interesse pourra prendre connaissance de la demonstration dans I’encadre 2 
qui illustre comment I’equation (3.20) est bien une operationnalisation de I’equation 


(3.18). 


3. Estimation de la fidelite 


3.1 Methode des formes paralleles 

La definition operationnelle de la fidelite nous indique dans quelles conditions la 
theorie classique nous permet d’estimer la precision des scores. A condition de dispo¬ 
ser de deux formes paralleles, il est possible de calculer la proportion de la variance 
des scores observes qui est due aux scores vrais et ainsi d’estimer la fidelite lorsque 
les postulats de la theorie classique sont valables. Dans la pratique, ces deux formes 
paralleles peuvent se rencontrer dans trois situations que nous allons maintenant 
decrire : 

La stabilite 

Si Ton administre le meme test a deux reprises, la correlation entre les scores obser¬ 
ves au test-retest nous donne une indication de la stabilite des resultats dans le temps. 
Le test administre au temps A est considere comme parallele au meme test administre 
au temps B. Si les resultats au test-retest ne sont pas stables, alors la correlation entre 
les deux sera faible et I’effet du passage du temps s’ajoutera a I’eireur de mesure. II 
faut noter qu’une telle procedure suppose que le retest est sans effet particulier sur les 
sujets, c’est-a-dire qu’il n’y a pas eu d’effet d’apprentissage ou de contamination des 
resultats. Si, par exemple, les sujets les plus forts lors de la premiere administration 
sont aussi ceux qui, au moment du retest, se rappellent mieux des questions posees la 
premiere fois, il risque d’y avoir correlation entre le score vrai de I’eleve au premier 
test et I’erreur aleatoire de mesure au second, ce qui enfreint le postulat 5 du modele 
de la theorie classique. 

L'equivalence 

Si I’on administre deux versions d’un meme test, la correlation entre les scores de 
chaque test nous renseigne sur le degre d’equivalence entre les tests. Ceci suppose que 
les deux formes out ete administrees en meme temps ou a I’interieur d’une periode de 
temps ties courte, sinon la stabilite et l’equivalence des deux tests seraient mesurees 
simultanement. Ce type de fidelite requiert que deux tests soient crees. Ce n’est pas 
toujours necessaire cependant. On peut decider de considerer comme equivalentes les 
deux moities d’un test (methode de bissection). Le calcul de la correlation nous four- 
nit alors une estimation de l’equivalence des resultats pour chaque moitie du test. A la 
limite, on peut etendre ce concept jusqu’aux items et determiner a quel point tous les 
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items entrant dans le calcul d’un score total sont homogenes, c’est-a-dire equivalents 
ou encore paralleles. L’ennui avec le calcul de la fidelite par la methode de bisection, 
c’est que 1’estimation fournie se fonde sur une partie du test.alors que c’est la fidelite 
du test entier que nous recherchons. Des corrections visant a tenir compte de cette 
situation sont disponibles (Speai*man-Brown, Guttman, Rulon) et nous les verrons 
dans la section 3.2. 

La stabilite-equivalence 

Dans le calcul de la stabilite, on cherche a determiner 1’effet du passage du temps sur 
la fidelite du score. Dans le calcul de I’equivalence, c’est I’effet de 1’echantillonnage 
des items sur le score total de 1’individu que l’on cherche a mesurer. Lorsque 1’on 
cherche a tenir compte de ces deux sources de fluctuation du score total, nous proce- 
dons au calcul d’un coefficient de stabilite-equivalence. Cette valeur de fidelite nous 
est fournie par la correlation entre les deux formes d’un test a des moments differents. 
En fait, le calcul de la stabilite-equivalence devient necessaire lorsque Ton ne peut 
utiliser le merne test dans le calcul de la stabilite. Puisque deux sources de fluctuation 
aleatoire seront presentes dans le calcul de cette correlation, le coefficient de stabilite- 
equivalence est generalement la plus faible estimation de la fidelite parmi les trois que 
nous venous d’envisager. 

Le tableau 3,4 decrit le plan d’observation des trois methodes precedentes de 
calcul de la fidelite. II s’agit en fait de deux tests paralleles (test 1 et test 2) adminis¬ 
tres a deux moments differents (temps A et temps B). II est done possible d’estimer 
la fidelite de trois manieres differentes : 

• la stabilite : par la correlation entre les resultats de chaque test (test 1 ou 
test 2) au temps A avec les resultats au meme test au temps B ; 

• 1’equivalence : par la correlation entre les resultats de deux tests paralleles 
administres au meme moment (soit au temps A, soit au temps B) ; 

• la stabilite-equivalence : par la correlation entre les resultats a deux tests paral¬ 
leles administres a des moments differents (test 1 au moment A avec test 2 au 
moment B ; test 2 au moment A avec test 1 au moment B). 

Le tableau 3.4 presente un exemple de calcul pour chaque methode d’estima- 
tion de la fidelite. II presente la moyenne et I’ecart type de chaque test aux moments 
A et B, ainsi que les correlations necessaires a 1’estimation de la fidelite des resultats. 

Premierement, les moyennes et les ecails types des deux tests paralleles ne sont 
pas exactement les inernes. Est-ce une raison suffisante pour remettre en question le 
modele de la theorie classique ? Pas forcement, car des differences entre les moyennes 
et les ecarts types peuvent toujours se produire suite a des fluctuations d’echantillon- 
nage. II faut se demander si ces fluctuations sont telles qu’elles remettent en question 
1’hypothese selon laquelle les tests sont paralleles. Rappelons que 1’equivalence entre 
les tests signifie que les moyennes et les ecails types des resultats a ces tests sont les 
memes dans la population en depit des differences observees au niveau de Yechantillon. 

Les resultats indiquent que les tests 1 et 2 sont relativement equivalents, que 
1’estimation de 1’equivalence entre les deux tests ait ete faite au temps A ou au temps 
B. En effet, la correlation entre les deux tests est de 0,81 au temps A et de 0,92 
au temps B. II y a done entre 81 % et 92 % de la variance de chacun des tests qui 
est composee de la variance de scores vrais si le modele de la theorie classique est 
approprie. Cette proportion de variance vraie nous permet d’estimer la fidelite d’equi- 
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Tableau 3.4 — Fidelite de stabilite et equivalence : exemples de calculs 


Temps A 

Temps B 

Sujets 

Test! 

Test 2 

Sujets 

Test 1 

Test 2 

1 

9 

8 

1 

13 

11 

2 

7 

8 

2 

8 

9 

3 

7 

7 

3 

8 

8 

4 

8 

6 

4 

8 

6 

5 

5 

6 

5 

7 

6 

6 

4 

4 

6 

5 

5 

7 

5 

5 

7 

4 

4 


6,43 

6,29 

Moyenne 

7,57 


Voriance 

2,82 

1,92 

Variance 

7,10 


Corr. 

0,81 


Corr. 

0,92 



Stabilite/equivalence 



Temps A Test 1 

Temps A Test 2 

Temps B Test 1 

0,87 

0,81 

Temps B Test 2 

0,79 

0,91 


Equivalence 


Temps A 

Test 1 

Test 2 

Test 1 

1,00 

0,81 

Test 2 

0,81 

1,00 


Temps B 

Test! 

Test 2 

Test 1 

1,00 

0,92 

Test 2 

0,92 

1,00 


valence selon les equations 3.19 et 3.20. De plus, nous pouvons affirmer que 65 % de 
la variance des scores observes du test 2 au Temps A peut etre predite par la variance 
des scores observes du test I au Temps A. Ce pourcentage est calcule en elevant au 
carre la correlation entre les resultats aux deux tests, soil : 

t\\ = 0,81 2 = 0,65 

Les resultats a chacun des tests sont egalement tres stables. Au moyen de la corre¬ 
lation entre les scores obtenus au meme test aux temps A et B, il est possible d’es- 
timer que la stabilite des resultats du test 1 est a 0,87 et celle du test 2 a 0,91. II y 
a done respectivement 87 % et 91 % de variance entre la premiere et la seconde 
administration du test 1 et du test 2 qui est de la variance de score vrai. Ici encore, 
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en elevant la valeur de correlation au carre, l’on peut calculer le pourcentage de la 
variance des scores observes au temps B qui peut etre predite a partir des scores 
observes au temps A. Pour le test 2, cette valeur est : 

r = 0,91- =0,83 

*2*2 

La plus faible valeur de fidelite est celle de la stabil ite-equivalence et c’est habi- 
tuellement le cas En cITet, cette estimation cumule les erreurs aleatoires de mesure 
imputables aux differences d’echantillonnage des items entre les deux tests paral- 
leles. de meme que les erreurs aleatoires de mesure imputables a I’elfet du temps. 
La valeur estimee ne saurait done etre plus grande que la plus petite des valeurs 
de fidelite precedemment calculee, qu’il s’agisse d’equivalence ou de stabilite. La 
stabilite-equivalence du test 1 est de 0,81 et celle du test 2 est de 0,79. Dans le cas 
du test 1, la valeur de stabilite-equivalence est egale au coefficient d’equivalence avec 
le test 2 mesuree au temps A (0,81 = 0,81), mais inferieure au coefficient de stabilite 
(0,81 < 0,87) et au coefficient d’equivalence mesure au temps B (0,81 < 0,92). Dans le 
cas du test 2, la valeur de stabilite-equivalence est inferieure a la fois a l’equivalence 
du test 2 avec le test 1 (temps A : 0,79 < 0,81 ; temps B : 0,79 < 0,92) et a la stabilite 
test-retest (0,79 < 0,91). Le coefficient de stabilite-equivalence est done, parmi les 
trois methodes precedentes, celle qui fournit l’estimation de la fidelite la plus basse. 

3.2 Methode de bissection 

Tous les calculs pratiques de la fidelite que nous avons pris en consideration jusqu’a 
present possedent un point en commun : ils requierent la construction de deux tests ou 
encore [’administration du meme test a deux reprises. Aucune de ces trois methodes 
ne permet d’obtenir une estimation de la fidelite avec un seul test qui aurait fait l’ob- 
jet d’une seule administration. 

Pourtant, dans le cas precis de l’equivalence entre deux tests, il est possible 
de considerer des parties quelconques du test entier comme des formes paralleles du 
meme test. Le probleme de la double administration et de la construction de deux 
tests est ainsi contourne. Cette methode est connue sous le nom de la methode de 
bissection (en anglais « split-half»). 

Mais que mesure au juste la correlation entre les scores totaux a deux moities 
d’un test ? II s’agit en fait d’une mesure de la coherence interne du test entier, ou si 
1’on prefere, de l’homogeneite de ses parties. Si la correlation obtenue entre les deux 
moities est elevee, elle indique que les deux parties mesurent sensiblement la meme 
chose. Si, par contre, elle est faible, elle indique qu’elles mesurent des choses diffe- 
rentes. En fait, la coherence interne du test nous permet de nous prononcer sur l’ad- 
ditivite des scores entre les differentes parties d’un test. Si ces parties mesurent des 
caracteristiques differentes, sans liens ou encore en relations opposees, leur addition 
contribuera bien peu a ameliorer la fidelite du score total au test. La variance du score 
total ainsi obtenue sera considerablement reduite, comme nous I’avons deja demontre 
dans les exemples des tableaux 3.2 et 3.3. 

Les methodes de bissection component deux inconvenients importants : 

1. La fidelite ainsi calculee nous fournit la precision des scores totaux obtenus 
pour la moitie du test, alors que c’est la precision des scores totaux pour I’en¬ 
semble du test qui nous interesse. De plus, une telle estimation de la fidelite 
risque de fournir des estimations bien au-dessous de la fidelite du score total 
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pour I’ensemble du test puisque plus un score total est calcule sur un grand 
nombre d’items, plus il a de chances d’etre precis. 

2. La lidelite ainsi calculee depend de la methode de bissection choisie. En eft'et, 
les correlations entre les scores obtains aux deux moities d’un test risquent 
d’etre fort differentes selon que les deux moities sont constitue'es des premiers 
vs derniers items, des items pairs vs items impairs ou encore des j/2 items 
choisis au hasard vs les j/2 items restants. 

Le tableau 3.5 presente deux exemples de calcul selon la methode de bissec¬ 
tion : la premiere utilise la correlation entre les deux parties du test lormees de la 
somme des items pairs et impairs : la seconde utilise la correlation entre la somme 
des cinq premiers et des cinq derniers items. L’estimation de la lidelite varie beau- 
coup selon la methode de bissection employee. Dans le premier cas, celle-ci est esti- 
mee a 0,973, alors que dans le second cas, elle est evaluee a 0,887. D’autres methodes 
de bissection auraient fourni des resultats tout aussi differents. 

La correction de Spearman-Brown permet d’apporter une solution pratique au 
probleme de la sous-estimation de la lidelite de 1’ensemble du test par la methode de 
bissection. Cette lormule de correction permet d’estimer quelle serait la fidelite du 
test entier a partir de la fidelite calculee entre deux moities. Cette correction prend la 
forme suivante : 

'’at - -T**- (3.33) 

ou r AII represente la correlation entre les scores des deux moities d’un test. 


Tableau 3.5 — Methode de bissection 


Items Items 



2,6 2 3,7 2,1 3,6 4,2 1,4 3,1 

2,6 0,8 1,2 1,7 0,6 0,8 1,2 2,1 


Correlation entre les deux moities « pairs/impairs » 


Correlation entre les deux moities « premiers/derniers» 


0,8 22 , 























































114 


La fidelite des resultats 


Dans le cas ou la correlation entre les deux moities d’un test serait de 0,81, la 
correction de Spearman-Brown estimerait la fidelite du test entier a : 


2 x 0,81 1,62 


= 0,90 


(3.34) 


1 + 0,81 1,81 

Cette estimation n’est toutefois valable que si les deux moities du test correspondent 
a la definition de deux tests strictement paralleles. Lorsque les variances des deux 
moities sont fort differentes, I’estimation de la fidelite du test entier risque d’etre 
faussee. 


Rulon (1939) a propose une alternative a la methode Spearman-Brown et four- 
nit une meilleure estimation de la fidelite du test entier lorsqu’il y a de grandes diffe¬ 
rences dans les va+iances des scores calculees a partir des deux moities. La formule 
de Rulon suppose que I’on calcule d’abord un score de difference entre les resultats 
aux deux moities du test pour chaque sujet : 

D = A - B (3.35) 

La fidelite du test entier est ensuite calculee a partir de la formule suivante : 



r xx , est la fidelite du test entier, s 2 n est la variance des scores de difference et s 2 x est la 
variance des scores observes. II existe une autre formule de correction attribuable a 
Guttman (1945) qui donne exactement les memes resultats que celle de Rulon. 

Le deuxieme inconvenient des methodes de bissection est plus serieux. En 
effet, selon les deux moities obtenues par la methode de bissection choisie, il y a 
autant d’estimations possibles de la fidelite. La meilleure estimation de la coherence 
interne serait obtenue en calculant la moyenne des estimations obtenues a partir de 
toutes les bisections possibles du test. Ceci representerait, cependant, une quantite 
enorme de calculs meme pour un test comportant relativement pcu d’items 


3.3 Methode des covariances 

Les methodes d’estimation de la coherence interne fondee sur la covariance entre les 
items permettent d’apporter une solution au probleme que nous venons de souligner. 
Ces methodes reposent sur le postulat que chaque item peut etre considere comme 
une partie d’un test et qu’un test peut etre considere comme etant compose d’autant 
de paities que d’items, Plus les covariances entre tous les items pris deux a deux 
sont elevees, plus les items sont homogenes et mesurent la meme chose. Ceci se 
traduit par un score total qui sera d’autant plus precis qu’il sera evalue par un grand 
echantillon d’items tires de la meme population S’il n’y a que peu de covariances 
entre les items, alors de nouveaux echantillons tires de la meme population risquent 
de produire des resultats au test fort diff erents. En fait, ce que font les methodes de 
covariance, c’est d’estimer les chances d’obtenir le meme resultat avec de nouveaux 
echantillons d’items, a partir des correlations qui existent deja entre items censes 
mesurer la meme chose. 

Le a de Cronbach est sans doute la methode la plus connue d’estimation de 
la coherence interne fondee sur les covariances entre items (Cronbach, 1951). C’est 
aussi l’une des plus utilisees. Plusieurs logiciels statistiques fournissent maintenant 
cette valeur de fa<;on routiniere. La valeur a est une estimation de la fidelite d’un 
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score composite a partir de la fidelite de ses parties (ou items). Cette valeur est four- 
nie par l’equation suivante : 



(3.37) 
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Dans cette fonmile, j represente le nombre d’items, Y la somme des variances 
des j items et sj, la variance des scores totaux au test. Le a de Cronbach repose sta¬ 
le postulat fort que chaque item est parallele aux autres (meme degre de difficulty, 
meme variance). Comme c’est rarement le cas dans la pratique, la valeur de fidelite 
fournie par a sous-estime la fidelite du score total au test. On peut done affirmer que 
a est une valeur conservatrice de la coherence interne du score total puisque a < r xv . 


Le tableau 3.6 presente la matrice des variances-covariances pour les 10 items 
d’un test. Les variances sont inscrites en diagonale, alors que les covariances entre 
chaque item pris deux a deux figurent au-dessous de la diagonale principale. 


(4 


La valeur du a de Cronbach de ce test est calculee de la maniere suivante 


87,64) : 


10 r 12,4 
9 87,6 


0,95 


(3.38) 


Dans cet exemple, le nombre d’items j est egal a 10 et la somme des variances 
des items (diagonale de la matrice des variances-covariances) est egale a 12,40. La 
variance des scores totaux au test est de 87,64. Le a de Cronbach ainsi calcule est 
egal a 0,95, ce qui represente une excellente coherence interne. Les dix items forment 
un ensemble suffisamment homogene pour qu’il soit justifie d’additionner ensemble 
leurs resultats pour former un score total. 

L’inspection de la matrice des variances-covariances ne revele qu’une seule 
valeur de covariance negative entre I’item 5 et I’item 10. II est a prevoir que ces items 
contribuent moins a la coherence interne du test entier. En effet, un item qui possede 
une covariance negative avec les autres items ne saurait etre considere comme faisant 
partie du meme groupe d’items. 

II est difficile d’interpreter le degre dissociation entre deux items a partir de 
la matrice des variances-covariances. Lorsque les items ont des etendues differentes, la 


Tableau 3.7 — Matrice des correlations d'un test de 10 items (donnees du tableau 3.6) 



Item 1 

Item 2 

Item 3 

Item 4 

Item 5 

Item 6 

Item 7 

Item 8 

Item 9 

Item 10 

Item 1 











Item 2 

0,89 










Item 3 












0,59 

0,52 

0,93 









0,18 

0,28 

0,66 

0,71 







Item 6 

0,90 

0,90 

0,79 

0,69 

0,40 






Item 7 

0,97 

0,90 

0,83 

0,66 

0,29 

0,95 

1,00 




Item 8 

0,95 

0,85 

0,84 

0,74 

0,29 

0,94 

0,97 




Item 9 

0,82 

0,70 

0,70 

0,73 

0,25 

0,89 

0,83 

0,92 






0,49 

0,40 

- 0,25 

0,56 

0,68 

0,75 

0,67 

1,00 
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valeur de la covariance s’en trouve affectee. Un item qui pent prendre les valeurs de I 
a 10 aura vraisemblablement une covariance plus elevee qu’un item qui ne peut prendre 
que des valeurs de I a 2 ou de 1 a 5. C’est pourquoi il est preferable d’avoir recours a la 
matrice des correlations dans ce genre de situation. Le tableau 3.7 presente la matrice des 
correlations entre items pour les mernes donnees que celles figurant dans le tableau 3.6. 

Parmi les autres methodes d’estimation de la coherence interne du score total 
d’un test, il y a les formules 20 et 21 developpees par Kuder et Richardson (1937). 
La formule 20 permet de calculer la coherence interne pour des items dichotomiques, 
alors que la formule 21 permet d’effectuer les memes calculs a partir de la moyenne et 
de la variance des scores individuels. Lorsque tous les items out sensiblement la meme 
difficulty et la meme variance, les deux formules fournissent des estimations equiva- 
lentes. Cependant, lorsque les items varient beaucoup en difficulty et en variance, la 
formule 21 fournit une estimation de la coherence interne systematiquement inferieure. 


La formule 20 de Kuder-Richardson est la suivante : 


KR,„ = 


.1 


E p<i 


(3.39) 


Dans 1’equation (3.39), ./ et s 2 x out la meme signification que dans I’equation (3.37). 
La seule difference importante provient de I’expression (3.40) : 

I pq (3.40) 


qui sert au calcul de la somme des variances des items lorsque ceux-ci out des valeurs 
dichotomiques. Dans ce cas, p est le coefficient de difficulty de I’item etry = 1 - p. 


Lorsque les items sont tous sensiblement de meme difficulty et de meme 
variance, la formule 20 peut etre remplacee par Fapproximation suivante fournie par 
la formule 21: r _ _ , 


KR n = —-— 
" 7-1 


X(j-X) 

J4 


(3.41) 


La formule 21 permet d’estimer la coherence interne d’un test a partir de la moyenne 
X et de la variance des scores totaux .?*. Cependant, s’il y a d’importantes differences 
parmi les indices de difficulty des items, KR21 sera systematiquement inferieure a 
KR20. 


Enfin, Hoyt (1941) a mis au point une methode de calcul de la coherence 
interne qui fournit des resultats similaires a la valeur a de Cronbach en utilisant cette 
f'ois-ci le modele de Fanalyse de variance en blocs aleatoires. Hoyt definit la fidelite 
de coherence interne de la maniere suivante : 


MC -MC 

pvrsonnes er 

MC _ 


(3.42) 


Dans cette expression, MC , ((Wf represente la moyenne des carres des personnes (ou 
si Foil prefere la variance des scores observes) et MC IT(Mr represente la moyenne des 
carres d’eneur (ou si Foil prefere la variance d’erreur aleatoire). La difference entre 
les deux termes du numerateur permet d’estimer la variance des scores vrais, soit la 
variance des scores observes qui n’est pas de l’erreur. Le rapport entre la variance des 
scores vrais et la variance des scores observes nous fournit 1’expression habituelle de 
la fidelite. 


Afin de bien comprendre la formule de Hoyt, il faut tenir compte du fait que 
ces moyennes de catTe sont calculees a partir d’un modele d’analyse de variance en 
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Tableau 3.8 — Analyse de variance des resultats a un test de 10 items 


Source de variance 

Somme des carres 

Degres de liberte 

Moyenne des carres 

Personnes 

87,64 

9 

9,74 

Items 

151,80 

90 

1,69 

Erreur 

37,56 

81 

0,46 

Total 

239,44 

99 

2,42 


blocs aleatoiies. Dans ce modele, il n’y a pas de terme d’interaction : la variance 
d’interaction est en effet confondue avec la variance d’erreur. L’absence d’interaction 
signifie que, selon ce modele, la difficulte des items est la meme pour chaque per- 
sonne ayant repondu au test. Par exenrple, 1’item le plus difficile a ete le plus difficile 
pour tous les sujets et non pour certains d’entre eux seulement. S’il devait y avoir line 
interaction significative entre la difficulte des items et les personnes qui y repondent, 
alors cette variance s’ajouterait a la variance d’erreur et contribuerait a reduire la 
fidelite des resultats au test : un item serait facile ou difficile selon la personne qui y 
repond. Dans une telle situation, il est difficile d’esperer une quelconque fidelite des 
resultats dans 1’appreciation des differences individuelles. 

Le tableau 3.8 presente les resultats de 1’analyse de variance effectuee sur les 
donnees du tableau 3.6. On y retrouve les sources de variance, la somrne des caries 
et la moyenne des carres pour un plan en blocs aleatoiies. En appliquant la formule 
de Hoyt (equation 3.42) aux resultats de ce tableau, on retrouve la meme valeur de a 
que celle calculee par T equation (3.37)- 


9,74 -0,46 
9,74 


0,95 


(3.43) 


La formule de Hoyt anticipe sur les developpenrents futurs apportes par la theorie 
de la generalisabilite telle que formulee par Cronbach, Gleser, Nanda et Rajaratnam 
(1972). Grace a 1’etude des composantes de variance, la theorie de la generalisabi¬ 
lite, comme nous le verrons plus loin, pernret l’etude de la fidelite des scores dans 
des conditions d’observation beaucoup plus complexes que celles que nous avons 
considerees dans ce chapitre. Enfin, grace aux modifications apportees par Cardinet et 
Tourneur (1985), la theorie de la generalisabilite a pernris d’etendre Tetude de la fide¬ 
lite de maniere a y inclin e tout objet de mesure dont les niveaux sont echantillonnes 
aleatoirement, que ce soit la difficulte des items eux-menres ou des items a l’interieur 
d’objectifs d’apprentissage, par exenrple. 


3.4 Problematique du coefficient a (1) 

Le coefficient a est sans doute 1’une des mesures les plus repandues de la fidelite. 
C’est aussi l’une des moins bien utilisees - du fait de sa popularity et de sa f'acilite 
d’utilisation. C’est a cause des abus, tant dans 1 ’utilisation que dans 1’interpretation 
du coefficient a, que nous avons juge necessaire d’y consacrer toute une section. 


‘"Laveault, D. (2012). Soixante ans de bons et mauvais usages du alpha de Cronbach. Mesure et eva¬ 
luation en education, 35(2), 1-7. L’article est reproduit ici avec la permission de la Revue. 
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Elabore en 1951 par Lee J. Cronbach, ce coefficient « alpha » comme son nom 
Pindique, a d’abord ete congu comme la premiere d’une serie de mesures de calculs 
des differentes proprietes des scores (Cronbach et Shavelson, 2004, p. 397). Cette serie 
d’indicateurs numeriques ne devait avoir aucun lendemain, mais la popularity du coef¬ 
ficient a pour mesurer la fidelite ne s’est pas dementie depuis. En raison de sa popu¬ 
larite, de sa longevite et aussi du nombre eleve de references secondaires a I’article de 
Cronbach (1951), les utilisations inappropriees du coefficient se sont vite repandues, a 
tel point que plusieurs auteurs (Green, Lissitz et Mulaik, 1977 ; Schmitt, 1996 ; Cor¬ 
tina, 1993) et Cronbach lui-meme (Cronbach et Shavelson, 2004) out cru necessaire de 
rappeler et de preciser les limites et les conditions de son utilisation appropriee. 

Avec le recul des annees, plus de cinquante ans apres la partition de Particle 
de Cronbach (1951), le coefficient a doit etre per^u pour ce qu’il est vraimcnt, soit un 
coefficient de coherence interne des items qui composent le score total a un test. Ce 
coefficient trouve maintenant sa place parmi un arsenal complexe d’analyses de la fide¬ 
lite, dont l’etude de la generalisabilite (Cardinet, Johnson & Pini, 2010 , voir section 7, 
chapitre 3) constitue le inodele sans doute le plus abouti en theorie classique des scores. 
Bref, il est important de retenir que le coefficient a ne couvre qu’une faible proportion 
des besoins de calculs de la fidelite et que son utilisation doit etre limitee aux cas bien 
precis ou il convient. C’est ce que nous tacherons d’approf'ondir dans cette section. 

3.4.1 Conditions d'utilisation 

Le coefficient a est line mesure de la coherence interne, c’est-a-dire du degre d’in- 
tercorrelation entre les items. La coherence interne est line condition necessaire, mais 
non suffisante de I’homogeneite des items d’une echelle, cette derniere impliquant 
I’unidimensionnalite de I’echelle en question (Green, Lissitz et Mulaik, 1977, p. 830). 
Il est en effet possible d’obtenir line valeur elevee du coefficient a avec un ensemble 
d’items multidimensionnels lorsque le nombre d’items en lui-meme est suffisamment 
grand ou encore si plusieurs des dimensions sont intercorrelees. 

Le coefficient a est fonction de la correlation moyenne entre les items (Cor¬ 
tina, 1993, p. 100) et peut etre eleve meiiie s’il existe de grands ecarts entre les cor¬ 
relations. L’erreur type d’a doit done etre prise en consideration afin de determiner 
jusqu’a quel point la valeur d’a peut avoir ete affectee par la variance des correlations 
entre items. Une erreur type d’a elevee peut etre interpretee de deux manieres pos¬ 
sibles. Elle peut indiquer soit une erreur de mesure des items elevee, soit la presence 
de plusieurs dimensions au sein des items (Schmitt, 1996, p. 351). Lorsque les items 
ne peuvent etre consideres comme x-equivalents, la fidelite de coherence interne ne 
peut etre estimee avec exactitude et represente plutot la borne inferieure de la valeur 
reelle de fidelite. Pour que le coefficient a tende vers sa valeur maximale possible, 
les items doivent etre 'C-equivalents c’est-a-dire etre en forte correlation et ne differer 
entre eux que par une constante (Cortina, 1993, p. 101). 

Cortina (1993, p. 102) a demontre que le coefficient alpha est fortement 
influence par le nombre d’items. Lorsque le nombre d’items est suffisamment eleve 
(de l’ordre de 40 items ou plus), il est relativement facile d’obtenir des valeurs accep- 
tables d’a (0,70 et plus) en depit d’une faible moyenne des coiTelations entre items 
ou en presence de multidimensionnalite. A la limite, un constructeur de tests peut 
atteindre des valeurs de a respectables en combinant plusieurs ensembles d’items 
heterogenes pourvu que ceux-ci soient correles positivement, ne serait-ce que mode- 
rement. En combinant sans autres raisons valables des ensembles plus ou moins 
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disparates d’items. il est done possible, lorsque le noinbre d’items est assez eleve, 
d’obtenir un a indiquant une coherence interne suffisante. Cependant, la significa¬ 
tion de cet a souleve de nombreuses difficultes a cause de 1’absence d’homogeneite 
entre les items. Un tel a indiquerait simplement que le test mesure quelque chose de 
maniere coherente, mais ce « quelque chose » serait indefini ou mal deiini. Une cohe¬ 
rence elevee obtenue avec un grand nombre d’items ne dispense done aucunement 
d’effectuer une validation theorique et empirique de la dimensionnalite du concept 
mesure (voir chapitre 4, section 4). C’est la l’une des raisons, selon Cortina (1993), 
de la mauvaise utilisation d’a, car au-dela d’un certain nombre d’items, la fidelite du 
test devient une fonction trop importante du nombre d’items. Or « le nombre d’items 
n’est pas une mesure adequate de la qualite d’une echelle ou d’un test » (p. 101). 

Une autre mauvaise utilisation du coefficient a provient d’une mauvaise inter¬ 
pretation que 1'on donne a la limite precedente (Schmitt, 1996, p. 352). C’est ainsi 
qu’un faux argument veut qu’il soil possible de se satisfaire de valeurs moindres d’a 
avec un petit nombre d’items. La pratique d’indiquer le nombre d’items sur lequel est 
base le calcul de a est certes une bonne pratique, mais elle ne peut etre employee a 
contresens, e’est-a-dire pour se contenter de valeurs de fidelite faibles avec un petit 
nombre d’items, valeurs qui seraient jugees inacceptables avec un nombre plus eleve. 
II demeure que le coefficient a est une estimation de l’erreur d’echantillonnage des 
items et que, peu importe le nombre d’items ayant servi au calcul du score total, une 
faible valeur d’a est toujours indicative d’une mesure imprecise du score total. 

Une autre interpretation frequente du coefficient a veut que celui-ci represente 
la moyenne de tous les coefficients de bisection possibles. Or, cette affirmation ne 
tient que si les items sont x-equivalents. Le coefficient a est la moyenne de tous les 
coefficients de bisection, si et seulement si les ecarts types des items sont egaux. Le 
coefficient a calcule sur les scores standardises permet de calculer la valeur d’alpha 
standardisee. Ce coefficient standardise n’est cependant pas approprie pour decrire la 
fidelite et l’erreur de mesure lorsque les scores bruts sont employes. II ne devrait pas 
etre calcule avec les valeurs brutes car il pourrait surestimer la coherence interne de 
i’ensemble d’items en question. 

3.4.2 Limites du coefficient a 

Selon Cortina (1993, p. 103), le coefficient a est utile pour estimer la fidelite dans 
un cas bien particulier : lorsque nous nous soucions de la variance unique des items 
dans un test unidimensionnel. Lorsque le coefficient a est eleve et que sa valeur n’esl 
pas gonflee par un nombre exagere d'items, nous pouvons en conclure que peu de 
variances entre les scores resulte d’items particuliers, mais depend d’un facteur general 
ou de groupe. Ceci etant dit, le coefficient a ne devrait jamais etre utilise comme un 
indicateur d’unidimensionnalite des resultats. Il ne dispense pas d’une etude appro- 
priee de la dimensionnalite des items au moyen d’analyses factorielles exploratoires 
et confirmatoires (voir chapitre 4, section 4.4). Ceci etant dit, « une fois que l’exis- 
tence d’un facteur unique a pu etre demontree, le coefficient alpha peut etre considere 
comme une mesure de la force d’une dimension unique » (Cortina, 1993, p. 103). 

3.4.3 Exemples de bonnes pratiques 

Si les etudes et analyses recentes sur le coefficient a ont permis de mieux en saisir 
la portee et de denoncer les abus quant a son utilisation, elles ont egalement permis 
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de mieux en encadrer I’utilisation et de formuler des recommandations quant a la 
maniere la plus adequate d’en rapporter les resultats : 

1. La valeur d’a devrait toujours etre accompagnee du nonibre d’items sur lequel 
elle a ete calculee, de son erreur d’estimation ainsi que de la correlation 
moyenne entre les items (Cortina, 1993, p 104 ; Green, Lissitz et Mulaik, 
1977, p. 837 ; Schmitt, 1996, p. 353). Ceci permet an lecteur d’apprecier a 
quel point la coherence interne resulte de correlations elevees entre les items et 
non d’une inllation de la valeur d’a occasionnee par un nombre eleve d’items 
peu correles entre eux. 

2. Cronbach et Shavelson (2004, pp. 413-414) suggerent egalement de rappor¬ 
ter 1’erreur de mesure du score en plus du coefficient lui-meme Ceci permet 
au lecteur de niieux se representer toute l’etendue des scores possibles avec 
un echantillon d’items tires de la meme population. Une telle pratique est 
egalement conforme avec le standard 2.1 des Standards for educational and 
psychological testing (American Educational Research Association, American 
Psychological Association, & National Council on Measurement in Education, 
1999). 

3. Cronbach et Shavelson (2004, p. 415) proposent aussi d’indiquer le nombre 
d’items non completes, surtout si ceux-ci ont ete notes 0, introduisant ainsi un 
biais arlificiel dans la correlation entre les items a la fin d’un test. Dans un tel 
cas, il peut etre approprie de ne pas tenir compte de ces items dans le calcul 
de la valeur d’a. 

4. L’heterogeneite dans le contenu des items peut remettre en question la nature 
aleatoire de l’echantillonnage du contenu. Cronbach et Shavelson (2004, 
p. 415) previennent qu’une analyse de coherence interne qui ne tient pas 
compte de l’existence de plusieurs categories d’items peut donner lieu a des 
erreurs de mesure plus grandes que ne I’aurait fait une analyse plus specifique, 
par exemple, en calculant la fidelite de chaque categorie. 

5. Le coefficient a constitue une estimation appropriee de la coherence interne 
dans l’eventualite oil le score total est utilise de faqon relative, c’est-a-dire pour 
differencier les individus entre eux. Dans le cas oil le score total au test est 
utilise de fa<;on absolue pour determiner, par exemple, si un individu a atteint 
un seuil de reussite ou tout autre score particulier, alors l’erreur de mesure est 
sous-estimee (voir chapitre 3, section 7.6). Selon I’usage que I’on compte f'aire 
du score total, Cronbach et Shavelson (2004, p. 415) recommandent de fournir 
les composantes de sa vaiiance de maniere a permettre le calcul des valeurs 
d’erreur relative et d’erreur absolue. 

6 II est egalement possible de niieux informer I’utilisateur potentiel d’un test en 
lui indiquant le nombre de conditions (p.ex. le nombre d’items) requis pour 
atteindre une erreur de mesure acceptable. Cronbach et Shavelson (2004, 
p. 416) proposent de presenter un tableau indiquant 1’erreur de mesure en fonc- 
tion d’un certain nombre de conditions. L’utilisateur est alors en meilleure posi¬ 
tion de faire un choix et d’arbitrer entre cout du test et precision de la mesure. 
Pour conclure, nous pouvons affirmer que le coefficient a demeure une 
mesure de fidelite pratique qui merite d’etre employee. Avec le recul des annees, 
des methodes plus puissantes, mais aussi plus complexes, se sont ajoutees au coef¬ 
ficient a et, lorsque les conditions le permettent, celles-ci devraient etre employees 
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C’est le cas notamment de la theorie de la generalisabilite (Cardinet, Johnson & Pini, 
2010) en theorie classique des scores. II n’en derneure pas moins que lorsque nous 
avons besoin de connaitre rapidement s’il est justifie de creer un score total a partir de 
la somme des items d’un score composite, le coefficient a permet d’estimer rapide¬ 
ment les chances qu’un autre echantillon d’items tires du meme univers d’items nous 
permette de formuler des conclusions similaires quant a la valeur relative des resul¬ 
tats, comme par exemple, quel score est le plus eleve ou le plus bas, sans que Ton 
puisse se prononcer toutefois quant a sa valeur absolue. Ce besoin est courant et, dans 
de telles circonstances, le coefficient a continue a rendre des services inestimables, 
tant aux etudiants en psychometrie et en evaluation scolaire, qu’aux chercheurs les 
plus chevronnes. 

3.5 Les correlations intra-classes 

Une source frequente d’erreur de mesure, et done de faiblesse du coefficient de fide¬ 
lite, est la subjectivite des juges qui evaluent les performances (p. ex. l’exactitude 
de la definition d’un mot, l’originalite d’un dessin, etc.) et, sur cette base, attribuent 
des scores. Cette subjectivite introduit de la variability dans les scores observes qui 
n’est pas due a des differences effectives (variance vraie) entre les caracteristiques 
individuelles mesurees. Lorsque I’on evalue la fidelite des scores a un test, il est des 
lors utile d’estimer le degre d’erreur introduite par le jugement des examinateurs. Les 
correlations intra-classes fournissent cette information en mesurant le degre d’accord 
entre juges. Plus 1’accord entre les juges est eleve, plus le coefficient de correla¬ 
tion l’est egalement et moins la subjectivite des examinateurs influence les scores 
observes. 

Les coefficients de correlation intra-classes constituent une famille de coeffi¬ 
cients de correlation qui, dans le contexte de revaluation de la fidelite, representent 
un cas particulier d’etude de la generalisabilite comportant une seule f'acette (voir 
section 7 du present chapitre). Shrout et Fleiss (1979) ont identifie plusieurs regies 
permettant a I’utilisateur de choisir parmi six formes de correlations intra-classes. 

Tableau 3.9 — Evaluation de deux juges 


Individu 

Juge 1 

Juge 2 

1 

11 

10 

2 

9 

11 

3 

10 

10 

4 

17 

17 

5 

13 

15 

6 

18 

18 

7 

4 

4 

8 

9 

13 

9 

21 

21 

10 

13 

11 
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Tableau 3.10 — Composantes de I'analyse de la variance 



Exemple 

Source de variance 

Degre de liberte 

Degre de liberte 

Carre moyen 

Individus 

(i-1) 

9 

47,917 (CM,) 

Juges 

(ill 

1 

1,250 (CM,) 

Individus x Juges (residu) 

(i-D(j-l) 

9 

1,472 (CM,) 


Note: i = nombre d'individus; j = nombre de juges; carre moyen = somme des carres divisee par le dl. 


Tons ces coefficients se basent sur une analyse de la variance ou sont distinguees les 
sources de variations suivantes : (1) les sujets, (2) les juges et (3) l’interaction entre 
les juges et les sujets (residu) 

L’exemple suivant illustre le calcul d’un coefficient de correlation intra-classe 
dans le cas d’un test d’analogies verbales auquel ont repondu 10 enfants. Les reponses 
de chaque enfant ont ete corrigees independamment par deux juges choisis aleatoire- 
ment. Le score de chaque enfant pouvait varier de 0 a 22. Le tableau 3.9 presente les 
scores attribues par les deux juges aux 10 enfants. 

Le tableau 3.10 presente, quant a lui, les composantes de la variance estimees 
et les degres de liberte correspondants, ainsi que les valeurs obtenues sur la base des 
donnees du test de comprehension verbale. 


Dans le cas present, la formule de calcul de la correlation intra-classe doit etre 
appliquee (Shrout & Fleiss. 1979) : 


CCl = 


CM, - CM r _ 

CM,. + (k - 1 )CM ( . + k{CM. - CM,) / n 


(3.44) 


ou CCl est le coefficient de correlation intra-classe ; n = le nombre d’observations et 
k = nombre de juges 


Ce qui donne la correlation suivante : 

_ 47,917 - 1,472 _ 

47,917 + (2 - 1)1,472 + 2(1,250 - 1,472)/ 10 


0,94 


Cette correlation s’interprete comme les autres coefficients de fidelite. Nous pouvons 
des lors affirmer que le degre d’erreur introduit par la subjectivity des juges est faible 
et que les scores observes a ce test sont fideles. 


4. Facteurs affectant I'estimation 
de la fidelite des resultats 

Les facteurs affectant l’estimation de la fidelite des resultats a un test proviennent de 
deux sources principales : 

• les limites inherences au calcul de la correlation lineaire au moyen du r de 
Pearson ; 

• les conditions empiriques de Tadministration du test, telles que la longueur du 
test et la limite de temps imposee. 
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Parce que, dans la pratique, Pestimation de la fidelite procede par tin calcul de 
con-elation, les valeurs de fidelite dependent du modele de la correlation lineaire de 
Pearson et des postulats de ce type de calcul statistique (voir Annexe 1). Les limites 
statistiques du r de Pearson s’etendent done au coefficient de fidelite. Voici un bref 
rappel de ces limites dont il faut tenir compte dans toute interpretation d’un coeffi¬ 
cient de fidelite. 

4.) La difficulty d'un test 

Celle-ci affectera le calcul de la fidelite parce qu’un test trop facile ou trop diffi¬ 
cile entralnera une certaine asymetrie des resultats : asymetrie positive dans le cas 
d’un test trop difficile, asymetrie negative dans le cas d’un test trop facile. Or, la 
correlation r de Pearson ne peut atteindre sa valeur maximum de 1 que lorsque les 
distributions des deux variables en correlation sont symetriques ou possedent le meme 
type d’asymetrie. 

Prenons le cas du calcul d’un coefficient de stabilite au moyen de la correla¬ 
tion test-retest. Dans la situation ou les scores se distribuent de maniere symetrique 
lors d’une premiere administration, puis de maniere asymetrique lors d’une seconde 
administration, la valeur maximale du coefficient de correlation entre les scores au 
test et au retest ne pourra atteindre la valeur maximum de + 1. 

II est done important de prendre en consideration les facteurs affectant la fide¬ 
lite Dans ce dernier cas, il est tout aussi important - sinon plus - de savoir que la 
distribution des scores a change que de savoir que la valeur de stabilite est faible. 
En effet, le changement de distribution peut expliquer pourquoi la fidelite est faible. 
Un test devenu trop facile au moment du retest peut expliquer que la distribution 
des resultats, symetrique au moment du test, soit devenue asymetrique negative au 
moment du retest. La contamination des resultats ou l’apprentissage peuvent expli¬ 
quer ce genre de phenomene. 

4.2 L'etendue des differences individuelles 

La variance totale d’un test est une condition necessaire, niais non suffisante a la 
fidelite des resultats. C’est ce que nous avons vu en traitant de la variance du score 
total a un test. Toute reduction de l’etendue des scores individuels entraine une sous- 
estimation de la correlation entre deux variables (voir Annexe 1). 

Lors de l’etude de la fidelite d’un instrument de inesure, plusieurs situations 
peuvent se produire contribuant a reduire les differences individuelles et, par conse¬ 
quent, nos chances d’obtenir une estimation correcte de la fidelite. C’est le cas, 
notamment, des situations suivantes : 

1. L’etude-pilote porte sur un echantillon qui possede une variance moindre que la 
population generate. C’est le cas d’un test dont les resultats ne sont recueillis 
que dans des ecoles provenant de milieux favorises. On peut suspecter que la 
variance des resultats ainsi recueillis est moindre que celle qui aurait ete obte- 
nue au moyen d’un echantillon representatif. 

2. Un test a ete mis a l’essai sur une population scolaire a plusieurs niveaux, plus 
etendue que le seul niveau dans lequel le test doit etre employe. 11 faut etre 
prudent dans I’appreciation de la fidelite rapportee dans de telles conditions. 
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Les resultats peuvent donner lieu a une variance des scores qui soil artifi- 
ciellenient grande lorsque les repondants sont de plusieurs niveaux scolaires. 
Par contre, cette variance risque d’etre reduite, et la fidelite de merne, si l’on 
emploie le test a un seul niveau scolaire. 


Magnusson (1967) a mis au point une I'ormule permettant de ctrriger l’esti- 
mation de la fidelite lorsque nous avons de bonnes raisons de croire que notre echan- 
tillon de sujets est homogene et contribue ainsi a sous-estimer la variance totale des 
scores observes au test. Cette formule de correction est donnee par I’equation sui- 


vante : 


.= 1 - 


• S A 0 - '« ) 


(3-45) 


Dans cette equation, r mr est la fidelite estimee pour le nouvel echantillon U, s 2 x est 
la variance de l’echantillon pour lequel nous avons deja calcule la fidelite, s\j est la 
variance du nouvel echantillon et r xx , est la fidelite estimee a partir de Fechantillon 
de depart X. 


Cette correction de Magnusson postule que l’erreur aleatoire est la meme dans 
les deux groupes et que la difference dans les variances des scores observes est impu¬ 
table a des differences dans les variances des scores vrais dans les deux groupes. 
C’est pourquoi, lors de l’utilisation de normes, il est important de s’assurer que notre 
echantillon provient de la meme population qui a servi au calcul des valeurs de la 
fidelite des resultats, sinon il sera plus prudent de realiser une etude-pilote sur la 
fidelite des resultats obtenus avec l’echantillon concerne. 


4.3 Limite de temps 

Lorsqu’un test est chronometre, plusieurs eleves n’arrivent pas a repondre a toutes 
les questions dans le temps imparti. Les questions omises se trouvent generalement 
a la fin du test et celles-ci sont generalement cotees 0. Cette procedure a pour effet 
de creer une inflation artilicielle de la correlation entre les derniers items, ce qui aura 
pour effet de faire paraTtre ces items plus homogenes qu’ils ne le sont en realite. 
Cette homogeneite ne sera pas due au fait que les items mesurent la meme chose, 
mais plutot au fait qu’ils out ete omis par les sujets parce qu’ils se trouvaient en fin 
de test. 

II f’aut done etre ties prudent lorsque Ton administre un test chronometre et 
que l’on souhaite determiner la lidelite des resultats L’estimation de la fidelite risque 
d’etre laussee par la correlation artificielle entre les items dans le cas des melhodes de 
bisection ou encore de coherence interne (a de Cronbach). Dans des conditions iden- 
tiques, par contre, les resultats obtenus par la methode test-retest ne sont pas affectes. 

4.4 La longueur du test 

Plus un test comprend un grand nombre d’items correspondant a ce que nous souhai- 
tons mesurer, plus cette mesure devrait etre precise. En effet, la somme des erreurs 
aleatoires de mesure devrait tendre vers zero lorsqu’un grand nombre d’items est 
utilise. C’est le principe de la theorie de I’echantillonnage : plus un echantillon est 
grand, plus I’estimation des caracteristiques de la population dont il est tire tend a 
etre precise. 
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Le rapport entre la longueur d’un test et la fidelite' de ses re'sultats est exprime 
par la formule de Spearman Brown (Spearman Brown prophecy formula). Elle nous 
indique a quel degre de precision I’on peut s’attendre de scores qui seraient calcules 
a partir d'un nombre accru d’items dans une proportion k (k pouvant etre une fraction 
ou un entier). Voici un rappel de cette formule que nous avons de'ja vue dans le cas 
de la me'thode de bisection ou k - 2 (formule 3.33) : 


kr e 


1 +(k - \)r.. 


(3.46) 


Dans I’equation pre'ce'dente, r xx . represente la fidelite attendue du test modifie, 
represente la fidelite du lest initial. Lorsque k > /, nous calculous la fidelite pour un 
test allonge'. Par exemple, si un test comporte 12 items et que l’on souhaite connaitre 
la fidelite de ce test auquel nous avons ajoute' 18 items paralleles, soit 30 items en 
tout, alors nous utilisons la formule (3.46) avec k = 2,5 (2,5 x 12 = 30). Le meme 
principe s’applique pour k < I. Les valeurs de fidelite calcule'es le sont alors pour des 
tests plus courts. 

La formule de Spearman-Brown nous permet de determiner clans quelle 
proportion la longueur d'un test doit etre augmente'e pour atteindre un degre' vise 
de fidelite. En modifiant I’e'quation pre'ce'dente, Ton peut isoler k de la fa$on sui- 
vante : 


k = ' x> (1 ’ Jf) (3.47) 

r A I-'«) 

Supposons que I’on veuille estimer dans quelle proportion un test de 30 items doit 
etre prolonge pour que sa fidelite, actuellement de 0,75, soit porte'e a 0,85. En solu- 
tionnant I’equation (3.47) pour trouver k, on obtient : 

0.85(1- 0,75) 

0,75(1 - 0,85) 

Une valeur k = 1,89 signifie que le nouveau test devra etre 1,89 fois plus long que le 
test original. II devra done compter approximativement 1,89 x 30 items, soit 57 items. 
II faudrait done ajouter 27 items aux 30 items faisant de'ja partie du test pour faire 
passer la fidelite' du test de 0,75 a 0,85. 

II est important de se rappeler que la formule de Spearman Brown prend pour 
acquis que les items qui seront ajoute's (ou retranche's) sont paralleles aux items du 
test de de'part, e’est-a-dire qu’ils sont de meme contenu el de meme degre' de diffi- 
culte'. En effet, la precision d’un test n’augmentera pas si I’on y ajoute des items de 
niveaux de difficulte fort differents ou de contenus varies, susceptibles de ne pas avoir 
une bonne corre'lation avec les items faisant de'ja partie du lest. 

La formule de Spearman Brown peut etre ties utile pour nous permettre de 
de'cider de la longueur qu’un test doit avoir pour posse'der une precision acceptable. 
Cependant, cette me'thode ne nous indique pas quelles sont les caracteristiques des 
items paralleles a ajouter, en termes de contenu et de format, afin d’accroltre la fidc- 
lite des tests. Lorsque le contenu d’un test est defini de fa<;on generate, comme e’est 
le cas de plusieurs e'preuves sommatives en e'ducation et de certains tests psycho- 
metriques, le constructeur peut e'prouver de la difficulte a definir les caracte'ristiques 
des items a ajouter pour qu’ils soient paralleles a ceux de'ja construits. En e'ducation, 
par exemple, le concepteur pourra s’inspirer des objectifs pe'dagogiques pour ajouter 
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des items provenant des memes objectifs que le test initial. Plus les conditions ayant 
preside a elaboration initiale du test sont claires, comnie c’est le cas avec les tech¬ 
niques de specification de domaine, plus i! sera facile au concepteur de rediger des 
items paralleles. 

Le principal inconvenient de cette maniere de proceder est d’employer line 
approche empirique pour creer des ensembles homogenes d’items. II est possible 
que certains items possedent des caracteristiques qui leur permettent de mesurer de 
fagon plus precise les sujets d’un echantillon particulier. II est plus facile d'ame- 
liorer la fidelite d’un test lorsque celui-ci a ete construit selon des facettes ou une 
approche criteriee (voir chapitre 1) et lorsque les caracteristiques de ces items sont 
bien connues. De plus, des tests construits selon de telles facettes se pretent bien a 
une etude de generalisabilite (voir section 7 de ce chapitre). 

5. Fidelite et erreur de mesure 

La fidelite n’exprime pas la precision d’une mesure dans le meme systeme d’unites 
que le score total, ce qui en rend l’interpretation difficile. C’est pourquoi, plutot que 
de rapporter la precision d’un test sous forme de fidelite, on prefere parfois indiquer 
l’erreur qui entoure l’inteipretation d’un score. Plus les resultats a un test sont fideles, 
plus l’erreur entourant un score sera faible. 

Dans la pratique, il existe deux fagons de calculer l’intervalle de confiance 
entourant le score observe de l’individu. Void deux occasions ou cette situation se 
presente : 

1. On est interesse a determiner l’intervalle de confiance autour du score observe 
a l’interieur duquel se situe le score vrai de 1’individu : l'erreur de mesure. 

2. On est interesse a determiner l’intervalle de confiance du score observe 
d’un eleve s’il devait etre soumis a un test parallele au premier : I’erreur 
d’estimation. 



Figure 3.6 — Distribution attendue des scores d'un sujet pour un testing repete 
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5.1 L'erreur type de mesure 

Pour comprendre cette notion, nous devons nous rappeler que, dans la theorie clas- 
sique, les scores d’un individu se distribuent normalement autour d’une valeur 
moyenne qui correspond a sa note vraie. Nous pouvons calculer 1’ecart type de cette 
distribution. Si nous faisons de meme pour tous les sujets d’un groupe donne, nous 
pourrons calculer la moyenne des ecatls types des difTerentes distributions Cet ecart 
type moyen est appele l’erreur type de mesure Elle peut etre estimee grace a la 
formule suivante : 

$ = W ~ r « (3 - 48 ) 

i\ K . - coefficient de fidelite 

s y = ecart type de la distribution des resultats a partir de laquelle r 0 , a ete calcule 

Parexemple, sir^estegal a0,90et.? r estegal a 15alorsx. = 15^/1 - 0,90 = 4,75. 
Mais que signifie concretement une erreur type de 4,75 ? Partant du postulat que 
l’erreur de mesure se distribue normalement, nous pouvons nous attendre a ce que, 
pour un sujet donne, 68 % de ses scores observes se situent dans un intervalle de 
± Js t . autour de son score vrai (figure 3.6). Par consequent, dans notre exemple, en 
supposant que le score vrai soit egal a 1 10, nous avons 68 % de chances d’observer, 
lors d’une passation quelconque, une note comprise entre 105 et 115 (110 ± 4,75 
arrondi a l’unite). Si nous voulons une probabilite plus grande d’inclure le score 
observe, il nous faudra elargir notre intervalle. Ainsi, si nous voulons avoir un inter¬ 
valle de confiance de 95 % (± 1,96 ecarts types de part et d’autre du score vrai) que 
la note obtenue tombe dans un intervalle determine, nous devrons definir un intervalle 
de 9 points (1,96 x 4,75 =9,31 = 9) de part et d’autre de son score vrai. 

Mais, dans la pratique, nous ne connaissons evidemment pas le score vrai. 
Nous ne savons done pas oil se situe la note obtenue au sein de la distribution atten- 
due des scores. II se peut, par hasard, qu’elie soit egale au score vrai. II se peut aussi 
qu’elle tombe a l’extremite de la distribution. Mais cela, nous n’en savons rien. Par 
contre, nous connaissons l’erreur type de mesure et nous acceptons un risque d’erreur 
determine A l’aide de ces informations, nous pouvons construire un intervalle de 
confiance autour de la note observee dans lequel le score vrai du sujet a un certain 
pourcentage de chance de se trouver. Si, dans notre exemple, le score obtenu par le 
sujet est de 1 14 points et que nous souhaitons determiner un intervalle ou le score 
vrai de ce sujet a 95 % de chance de se trouver, nous allons construire un intervalle 
de ± 9 points autour de 114 Cet intervalle sera done egal a [105 ; 123]. Pour elargir 
ou pour retrecir cet intervalle, il nous suffit de multiplier l’erreur type de mesure par 
la valeur critique de z correspondant au niveau de probabilite souhaite. Nous pouvons 
des lors exprimer l’intervalle de confiance sous la forme generate suivante : 

X -z,s e <V < X+z,> t„ (3.49) 

X = le score observe 
Z, - la valeur critique de ; 

S - l’erreur type de mesure 
V = le score vrai 
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L’avantage majeur a determiner un intervalle de confiance autour de la 
note obtenue est de relativiser cette derniere note. Le praticien prend ainsi mieux 
conscience de la marge d’erreur que comporte la mesure recueillie. A probability 
egales, un large intervalle de conliance montre clairement que les scores observes ne 
sont pas de ties bons indicateurs du score vrai. Inversement, un intervalle de conliance 
etroit est 1 ’indice que les scores observes sont assez proches du score vrai. Une telle 
pratique est egalement conforme avec le standard 2.1 des Standards for educational 
and psychological testing (American Educational Research Association, American 
Psychological Association, & National Council on Measurement in Education, 1999). 

D’un autre cote, 1'intervalle de confiance a comme desavantage d'etre parfois 
mal interprets par les praticiens. En fait, nous n’avons jamais de certitude que le score 
vrai soil inclus dans l’intervalle que nous avons etabli autour de la note observee. 
Nous n’avons qu’une probability, plus ou moins importante selon le risque d’erreur 
choisi. Une autre limite de l’usage de l’intervalle de confiance est de postuler que 
1’erreur type de mesure est la meme a tous les niveaux de performance (postulat d’ho- 
moscedasticite). Par exemple, dans le cas d’un test d’acquis scolaires. on suppose que 
I'erreur de mesure est la meme pour les Sieves forts que pour les Sieves faibles. La 
pertinence de ce postulat est discutable, II se peut en effet que 1'importance de l’er- 
reur type de mesure dififere selon le niveau d’aptitude des sujets. Nous verrons plus 
loin que le modele binomial des scores prSsente une mSthode d’estimation de Eerreur 
type de mesure qui ne s’appuie pas sur le postulat d'homoscSdasticitS. 

Par ailleurs, en centrant l’intervalle de conliance sur le score observS, on pos- 
tule que celui-ci reprSsente une estimation non biaisSe du score vrai du sujet. Ce 
postulat est toutefois incorrect (Nunnally et Bernstein, 1994) car la corrSlation entre 
le score observS et le score vrai n’est jamais parfaite. Par consSquent, si Ton estime 
le score vrai d’un sujet a partir de son score observS, il se produit un phenomene de 
rSgression vers la moyenne des scores vrais. Ce phSnomene est la consSquence inS- 
vitable de toute corrSlation imparfaite qui se traduit graphiquement par une droite de 
rSgression dont la pente est inferieure a 1. Dans ce cas, les valeurs de Y dSvient moins 
par rapport a la moyenne des Y que les valeurs de X par rapport a la moyenne des X, 
Dans le cas des scores observSs X , les scores supSrieurs a la moyenne sont biaisSs 
vers le haut et les scores infSrieurs a la moyenne sont biaisSs vers le has. Plus un 
score observe est eloigne de la moyenne, plus la valeur absolue du biais est grande. 
Pris comme un groupe, les sujets qui obtiennent des scores eleves beneficient plus 
souvent d’erreurs positives et les sujets qui obtiennent des scores faibles subissent les 
el’fets du phenomene inverse (erreurs negatives plus frequentes). 

Comme illustration du phenomene de regression vers la moyenne, nous pou- 
vons reprendre l’observation laite par Gallon de la relation entre la taille des parents 
et celle de leurs enfants. Afin de placer toutes les failles sur une meme echelle, Gallon 
les a transformees en scores z (ch.6, §2.3.4). De cette fmjon, les tailles des parents 
et celles des enfants etaient exprimees sur une echelle identique dont 1’unite valait 
1. Galton a ensuite represente sur un graphique cartesien la relation entre la taille 
des parents, en abscisse, et celle des enfants, en ordonnee (figure 3.7). Puis, pour 
des parents d’une taille determinee (par exemple, correspondant a l.v au-dessus de la 
moyenne), il a calcule la taille moyenne des enfants. En laisant ce calcul pour toutes 
les tailles des parents, il s’est rendu compte que les tailles moyennes des enfants 
formaient une droite (la droite de regression) et n’augmentaient pas aussi rapidement 
que celles de leurs parents. Les moyennes des enfants deviaient en effet moins 
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Figure 3.7 — Phenomene de regression vers la moyenne 

par rapport a leur moyenne generate que les tailles des parents correspondantes. Pour 
cette raison, cette regression vers la moyenne a ete appelee par Galton, la loi cle 
regression filiale. Ce phenomene decoule directement de la correlation imparfaite 
entre la taille des parents et celle de leurs enfants due au fait que la taille des enfants 
n’est pas entierement determinee par la taille de leurs parents. 

Du fait de ce phenomene de regression vers la moyenne, il est preferable de 
centrer l’intervalle de confiance sur 1’estimation du score vrai plutot que sur le score 
observe, (.’estimation du score vrai se calcule a l’aide de la formule suivante (Glut¬ 
ting, McDermott et Stanley, 1987) : 

V =X +r„.(X-X) (3.50) 

V = score vrai estime 
X = score observe 
X = moyenne des scores observes 
/■„/ = coefficient de fidelite 

Par ailleurs, il est incorrect de prendre l’erreur type de mesure calculee selon 
la formule (3.48) pour conslruire un intervalle de confiance autour de Pestimation du 
score vrai. Cette erreur est en effet plus importante que Perreur de mesure associee a 
Pestimation du score vrai (Stanley, 1971). Dans ce cas, nous devons calculer Perreur 
type d’estimation a l’aide de la formule suivante (Glutting et al., 1987) : 

■C-. = (-W 1 - ’«■ K (3.51) 

s x = ecart type de la distribution des resultats a partir desquels r Tl , a ete calcule 
r rl , = coefficient de fidelite 

A titre d’exemple, nous allons prendre le meme score observe que celui utilise 
dans Pexemple precedent (114). Dans le cas present, nous allons commencer par esti- 
mer le score vrai correspondant a ce score observe. Comrne le score rnoyen est 100 
et le coefficient de fidelite est 0,90, le calcul est simple : 100 -I- 0,90 x (114 - 100) = 
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112,6 =113 (equation 3.50). Quant a l’erreur type d’estimation, elle est obtenue par 
le calcul suivant : (15^1 - 0,90) x 0,90 = 4,27 (equation 3.51). A paitir de ce resul- 
tat, nous pouvons determiner une valeur qui nous permettra de construire un inter¬ 
vals de confiance de 95 % autour de l’estimation du score vrai. Pour cela, il suf'lit 
de multiplier 4,27 par 1,96 ce qui donne 8,37 (s 8) L’intervalle de confiance de 
95 % correspond des lors a 8 points de part et d’autre de 113 ce qui correspond a 
l’intervalle (105 ; 121]. On peut constater que, d’une part, l’estimation du score vrai 
regresse vers la moyenne et, d’autre part, que I'intervals de confiance utilisant 1’er¬ 
reur de mesure associee a l’estimation du score vrai est plus etroit que celui utilisant 
1’erreur type de mesure. 

Cette demiere procedure de construction d’un intervals de confiance est sans 
aucun doute la plus rigoureuse. Dans la pratique, elle aboutit toutefois a mettle en 
relation un score observe et un intervals de confiance dont les caracteristiques peu- 
vent derouter les utilisateurs qui ne comprennent pas d’emblee pourquoi cet intervals 
est asymetrique par rapport au score observe. En effet, dans notre exemple, la borne 
inferieure est 9 points en dessous du score observe (114) et la borne superieure est 7 
points au-dessus de ce meme score. 

5.2 L'erreur type d'estimation 

Le deuxieme type dSrreur est 1 'erreur d’estimation. C est le meme type dSrreur 
que l’on retrouve chaque fois que Ton souhaite calculer l’intervalle de confiance 
d’une valeur predite a partir d’une equation de regression lineaire. Dans ce cas-ci, 
on cherche a predire le resultat a un test parallele a partir du resultat a un autre test 
parallele. L’erreur type d’estimation est donnee par la racine carree de la variance 
residuelle. La variance residuelle est la variance des scores qui subsiste dans le 
second test une fois que l’on tient compte des resultats au premier test. En effet, si 
Ton devait calculer la variance des scores observes au deuxieme test a partir de tous 
ceux qui ont obtenu le meme resultat (disons 15/20) au premier test, celle-ci devrait 
etre d’autant plus petite que la correlation (ou si Ton veut l’equivalence) entre les 
deux tests est grande. Plus les deux tests sont paralleles, plus grande est la probabi¬ 
lity que le score a 1’autre test soil aussi de 15/20 ou une valeur tres approchee. Un 
expose detaille du calcul et de (’interpretation de l’erreur d’estimation est presente a 
1’Annexe 1. 

Rappelons que l’homoscedasticite est souvent postulee lorsque Ton calcule 
des correlations lineaires. Generalement, le chercheur interesse a differencier les 
sujets entre eux suppose que l’erreur type d’estimation est la meme pour tous. L’ho¬ 
moscedasticite rend plus simple 1’interpretation des resultats. Neanmoins, le postulat 
d’homoscedasticite peut ne pas etre realiste dans toutes situations : par exemple, 
lorsque le chercheur veut estimer l’erreur de mesure qui entoure la proportion des 
items d’un domaine qu’un sujet est capable de reussir correclement. II est naturel, 
dans une telle situation, que I’erreur de mesure soit moindre chez ceux qui reussis- 
sent ou echouent a presque tous les items que chez ceux qui n’en reussissent que 
la moitie. Keats et Lord (1962) et Lord (1965) ont propose un modele de test fonde 
sur la distribution binomiale qui permet d’estimer ce type d’erreur de mesure parti¬ 
al] ierement utile en mesure criteriee. Nous aborderons ce modele dans la section 6 
dc ce chapitre. 
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5.3 L'erreur type de la difference 


En dehors de la determination d’un intervalle de confiance. la connaissance de I’er- 
reur type de inesure est egalement utile si nous desirous comparer les scores obtenus 
par un meine sujet a deux tests dift'erents. II est assez frequent qu’un psychologue 
scolaire, au vu des resultats de tests, se demande si un sujet possede de meilleures 
aptitudes dans un domaine que dans un autre. Les ecarts observes entre les scores a 
differents tests peuvent toutefois resulter de fluctuations aleatoires dues aux erreurs 
cumulees de chacune des mesures. II est done important de pouvoir estimer quelle est 
la probability qu’une difference observee soit le reflet d’une difference reelle entre les 
aptitudes d’un sujet. Dans ce but, nous pouvons calculer l’erreur type de la difference 
(s tn ). Celle-ci est logiquement plus importante que l’erreur type de mesure de chacun 
des deux scores entre lesquels la difference est calculee. 


Puisque, dans la theorie classique des scores, les erreurs de mesures sont non 
correlees, nous pouvons ecrire : 




= s ‘*x +S 


£y 


(3.52) 


si = la variance de Ferreur de la difference, 

f -D 

s 2 Cx et s\. = la variance de I’eneur des notes X et Y 


Pour etre comparees, deux notes doivent etre exprimees sur des echelles sem- 
blables Autrement dit, les deux tests dont elles sont issues doivent avoir une meme 
moyenne et un meme ecart type. Si e’est le cas, de [’equation ci-dessus, nous pouvons 
deliver I’equation suivante : 

s e d = W 2 - r xx- ~ r n- (3.53) 

j = l’erreur type de la difference, 

,v v = l’ecart type de la distribution des X, egal a celui de la distribution des Y, 
r xX , et r, r = le coefficient de fidelite de chacun des deux tests 

Par exemple, si r xx . = 0,88 et r 1T = 0.85 et si ,v v - 10 pour les deux tests, alors 
s no - \0yj2 - 0,88 - 0,85 = 5,20. Sur la base de cette valeur, nous allons pouvoir 

tester l’hypothese nulle d’une absence de difference statistiquement significative 
entre les deux scores. Nous considererons en effet que les differences observees 
entre -5,20 et +5.20 ne s’ecartent pas significativement de zero. Cet intervalle de 
-I erreur type et + 1 erreur type autour de zero inclut 68 % des differences obser¬ 
vees. Cela implique que la difference entre les deux scores devra etre au minimum 
de 5,20 points (en negatif ou en positif) pour etre consideree comme statistiquement 
significative avec, par consequent, un risque de se tromper (rejeter erronement l’hy- 
pothese nulle) dans 32 % des cas. Si nous souhaitons un risque d’erreur moindre, 
nous devons multiplier l’erreur type de la difference par la valeur critique de z cor- 
respondant au seuil choisi. Ainsi, si nous desirons reduire a 5 % le risque de nous 
tromper, nous devons multiplier 5,20 par 1,96 ce qui est egal a 10,18. Dans ce cas, 
il faudra que la difference entre les resultats aux deux tests soit au minimum de 
10,18 points pour etre consideree comme statistiquement significative. Nous redui- 
rons alors le risque de rejeter erronement I’hypothese nulle a 5 % des differences 
observees. 
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Qu’une difference soit statistiquement significative n’implique pas quelle soit 
pen fiequente an sein de la population. La reference a la signification statistique de 
la difference nous permet simplement de determiner a partir de quelle valeur une 
difference observee est vraisemblablement le reflet d’une difference reelle entre deux 
caracteristiques du sujet dont nous comparons les scores. Devaluation de la frequence 
an sein de la population de differences egales ou superieures a cette valeur de refe¬ 
rence est une autre question. Par exemple, au WISC-lll, la difference entre le Q1 Ver¬ 
bal et le QI de Performance doit etre d’au moins 12 points pour etre statistiquement 
significative au seuil de 0.05. Bien que cette valeur paraisse elevee, des differences 
egales ou superieures sont relativement frequentes au sein de la population (Gregoire, 
2000). L'analyse de la difference entre le QI Verbal et le QI de Performance au sein 
de l’echantillon d’etalonnage (N = 1120) a ainsi revele que 41,3 % des sujets de cet 
echantillon presentaient une difference egale ou superieure a 12 points. 

6. Le modele binomial de I'erreur 

Les Standards for Educational and Psychological Testing (American Educational 
Research Association, American Psychological Association, & National Council on 
Measurement in Education, 1999, p. 31) recommandent aux constructeurs de tests de 
communiquer I'erreur type de mesure pour differents niveaux de scores. Comme nous 
l’avons vu dans la section precedente, la theorie classique ne nous permet malheureu- 
sement pas de produire une telle information La theorie classique s’appuie en effet 
sur le postulat d’une independance entre le score vrai et I’erreur de mesure. L’erreur 
type de mesure est des lors estimee pour le test dans son ensemble, quel que soit le 
niveau de score vrai des sujets. Pour satisf'aire a la recommandation des Standards 
for Educational and Psychological Testing, il est done necessaire de modifier certains 
postulats de la theorie classique afin de permettre une estimation de I’erreur type de 
mesure conditionnelle. 

II ne s'agit pas de se plier a une exigence purement f'ormelle. La necessite 
d’estimer I’erreur type de mesure a divers niveaux de scores est dictee par un certain 
nombre de constats empiriques. Ainsi, comparant plusieurs methodes d’estimation de 
I’erreur type de mesure conditionnelle, Felt, Steffen & Gupta (1985, p. 358) obser¬ 
ved que « quelle que soit la inetliode utilisee, I'erreur maxi male est souvent deux 
fois plus importante que I’erreur minimale. Par consequent, I’erreur type de mesure 
calculee selon la formule traditionnelle pour /’ensemble du test ne rend pas correc- 
tement compte de Timportance de I'erreur de mesure de beaucoup - et peut-etre de 
la pin part - des sujets ». Ce probleme est particulierement crucial dans le cas de 
tests criteries. Dans de tels tests, des valeurs seuils sont definies pour permettre de 
ranger les sujets dans differentes categories comme, par exemple, la maitrise ou la 
non-maltrise d’un apprentissage. La connaissance precise de I’erreur type de mesure 
pour chacun des scores seuils est essentielle vu 1’importance des decisions prises sur 
cette base. L’usage d’une unique erreur type de mesure pour l’ensemble des scores 
possibles au test risque en effet de conduire a des decisions inadequates. 

Le modele binomial de I’erreur, developpe par Lord (1955), permet de sur- 
monter les limites de la theorie classique et de calculer des erreurs types de mesure 
conditionnelles, e’est-a-dire en f'onction du niveau de score des sujets. Ce modele 
n’est toutefois applicable que pour des items dichotomiques, e'est-a-dire cotes 1 
ou 0. Dans le cadre du modele binomial de I’erreur, un test compose de n items 
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dichotomiques est congu comme un echantillon d’items tires au hasard d’un uni vers 
d’items. Tous les items de cet ensemble sont reputes posseder les memes proprietes 
du point de vue du contenu, de la difl iculte et de la discrimination. Cette situation est 
analogue a celle, classique en calcul des probabilites, du tirage de boules dans une 
urne. Chaque sujet de la population est considere comme capable de repondre correc- 
tement a une certaine proportion de Fensemble des items. Cette proportion peut etre 
conque comme le nombre de boules blanches dans l’urne. Inversement, la proportion 
d’items auxquels le sujet est incapable de repondre correctement correspondrait au 
nombre de boules noires dans cette meme urne. 


Le score vrai d’un sujet est egal a la proportion de Fensemble des items aux¬ 
quels il peut repondre correctement. Dans les faits, le sujet ne repond qu’a un test 
particular, c’est-a-dire a un echantillon d’items tires aleatoirement de Fensemble des 
items. Si nous constituons aleatoirement un ti es grand nombre de tests a partir de cet 
ensemble d’items. la distribution des scores d’un sujet a tous ces tests se distribuera 
autour du score vrai de ce sujet. L’erreur type de mesure sera alors egale a l’ecart 
type de cette distribution. Mais comment estimer cette erreur type lorsque nous dis- 
posons seulement du score du sujet a un seul test ? Pour repondre a cette question, 
nous devons nous souvenir que les items sont tous dichotomiques. Par consequent, 
la distribution de frequence des scores aux differents tests constitues aleatoirement a 
partir d’un vaste ensemble d’items correspondra approximativement a la distribution 
binomiale. Rappelons que, mathematiquement, la distribution binomiale est definie 
par la fonnule suivante : 


PIX) = 

P(X) - la probabilite de X succes, 
N - le nombre de tirages. 


N\ 


X\(N - X)\ 


p <y 


IN-X) 


(3.54) 


N! = factorielle N = le produit de tous les entiers de N jus que 1 
= N(N-/)(N-2)(N-3)... I, 


p = la probabilite de succes lors d’un tirage quelconque, 
q = I — p = la probabilite d’un echec lors d’un tirage quelconque. 

Supposons qu’un sujet soit capable de repondre correctement a 75 % des items 
et qu’il ait a passer un test de 12 items Son score vrai est done egal a 9 (= 75 % de 
12). Toutefois. son score observe peut liuctuer aleatoirement autour de cette valeur du 
fait de Ferreur de mesure. Grace a la fonnule (3.54), nous pouvons estimer la proba¬ 
bilite que ce sujet obtienne un score donne, different de 9. Calculons, par exemple, la 
probabilite que ce sujet reponde correctement a 11 items, c’est-a-dire que son score 
total soit egal a 11 puisque les items sont cotes 1 ou 0. Appliquons la fonnule (3.54) : 

12i 

P(l 1) =---x 0,75" x 0,25 0: '" = 0,1267 

111 ( 12 - 11)1 

Ce resultat signifie que, si un sujet possede la capacite de reussir 75 % des 
items et qu’il doit passer un test de 12 items constitue de maniere aleatoire, il 
obtiendra un score de 11 points lors d’un peu plus de 12 passations sur 100. Nous 
pouvons, de la meme maniere, calculer la probabilite que ce sujet obtienne chacun 
des 13 scores possibles a un test de 12 items (0 est un des scores possibles). Les 
probabilites que nous obtiendrons nous permettront de determiner la distribution de 
frequences des scores attendus a un test de 12 items pour un sujet dont le score vrai 
est egal a 9 
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Lorsque le nombre d’items est superieur a 30, la loi normale constitue une 
bonne approximation de la distribution binomiale. Pour le calcul des probabilites 
associees a un score particular, on peut transformer le nombre d’items reussis en 
score Z et trouver sa probabilite dans la table de probabilites de la loi normale (voir 
Annexe 2, Table 4). Les caracteristiques de cette distribution peuvent etre calculees a 
I’aide des formules suivantes : 


|4 = Np 

(3.55) 

II 

(3.56) 

Q 

II 

1 ? 

(3.57) 


Supposons que notre test soit compose de 30 items. Un eleve en a reussi 80 %, soit 
24. Le score moyen obtenu par le sujet sera done egal a 24, e’est-a-dire a son score 
vrai La variance des scores sera, elle, egale a 4,8 et I’ecart type egal a 2,19. Nous 
avons vu plus haut que cet ecart type correspond en fait a I’erreur type de mesure. 
Cela signifie que, pour un score vrai de 24 points, nous avons un peu plus de 68 
chances sur 100 d’observer, lors d’une passation de test quelconque, un score inclus 
dans l’intervalle de ± 2,19 points autour de 24 

Dans la pratique, nous ne connaissons evidemment pas le score vrai du sujet 
que nous evaluons. Pour calculer I’erreur type de mesure, nous devons alors prendre 
la proportion d’items reussis par ce sujet comme estimation de son score vrai. Par 
ailleurs, il est egalement necessaire d’introduire dans la formule (3.57) une correction 
pour obtenir une estimation non biaisee de la variance de la population. Nous obte- 
nons alors la formule nous permettant d’estimer I’erreur type de mesure pour un score 
observe donne : _ 

5 '=\ Npq {inr\, (3 ' 58) 

N = nombre d’items du test, 

p - proportion d’items reussis = score total au test divise pai' N, 

<1- 1 - P- 

Par exemple, nous pouvons calculer I’erreur type de mesure d’un score de 6 
points a un test homogene de 12 items : 

s E = Jl2 x 0,5 x (1-0,5) x = 1-81 

Si nous realisons le meme calcul pour chacun des scores possibles a ce test de 12 
items, nous pouvons constater que I’erreur type de mesure est maximale au centre 
de la distribution des scores. Elle est par contre minimale a chacune des extremites 
de cette meme distribution Nous pouvons ainsi constater que, contrairement au troi- 
sieme postulat de la theorie classique, I’erreur de mesure peut etre dift erente selon le 
score vrai. Le modele binomial de I’erreur nous permet de tenir compte de ces chan- 
gements. Toutefois, cette amelioration par rapport a la theorie classique se fait au prix 
de postulats plus exigeants, ce qui conduit Lord (1965) a qualifier le modele bino¬ 
mial de theorie forte du score vrai (strong true-seore theory). Deux postulats doivent, 
en particular, retenir notre attention. Le premier concerne I’independance locale des 
items. Cela signifie qu’a un niveau de score vrai donne, les resultats a chaque item 
doivent etre independants les uns des autres. Un second postulat est qu’a un niveau de 
score vrai donne, la probabilite de reussite est identique pour tous les items de I’en- 
semble considere. Ce dernier postulat est, en pratique, quasi impossible a satisf'aire. 
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Pour prendre en compte les inevitables variations de difficulty, Keats (1957) a pro¬ 
pose une version sensiblement modiliee de la fonnule (3.58) : 



r xx = le coefficient de fidelite (formes paralleles, bisection ou alpha), 
r 2l = la fonnule 21 de Kuder-Richardson (equation 3.41) 

En fait, la fonnule (3.59) est identique a la fonnule (3.58) hormis 1’introduc¬ 
tion d’un facteur de correction qui a pour effet de reduire, en moyenne, les estima¬ 
tions des erreurs types de mesure et de les ramener a un niveau plus adequat. Felt, 
Steffen et Gupta (1985) recommandent I’utilisation de cette fonnule de preference a 
la fonnule (3.56). 

Lord (1965) a propose une modification du modele binomial de I’erreur pour 
tenir compte du fait que de nombreux tests incluent des items de differents niveaux 
de difficulty. Dans le modele binomial, composite de I’erreur, on congoit les formes 
paralleles d’un test comme des echantillons stratifies d’items plutot que comme des 
echantillons simplement aleatoires. En d’autres termes, au lieu de tirer les boules 
d’une meme urne, nous les tir«ns de plusieurs urnes qui contiennent chacune, une 
proportion differente de boules blanches. Aux urnes correspondent des ensembles 
d’items dont le niveau de difficulty differe. Chacun de ces ensembles constitue une 
strate. Nous devons prendre en compte autant de strates qu’il y a de niveaux de diffi¬ 
culty au sein du test considere. Ce genre de situation se rencontre en education dans 
les tests de maitrise centres sur plusieurs objectifs. L’erreur type de mesure se calcule 
des lors a I’aide de la fonnule suivante : 



(3.60) 


k, = nombre d’items dans la strate I, 

p, = proportion d’items de la strate i reussis par le sujet, 

Q, = I - Pi, 

i = nombre de strates 


Comme le fait remarquer Felt (1984), cette formule risque malheureusement 
de conduire a des estimations ties imprecises car les tests comprennent habituelle- 
ment un grand nombre de strates comportant chacune un nombre relativement petit 
d’items. Lorsque certaines strates ne contiennent que deux ou trois items, Felt et al. 
(1985) conseillent d’ailleurs de ne pas utiliser cette formule pour estimer I’erreur type 
de mesure des differents scores d’un test. 


7. L'etude de la generalisabilite 

Les situations decrites jusqu’a maintenant ont illustre des cas relativement simples 
de calcul de la fidelite dans le modele classique : fidelite des resultats en fonction 
du temps, de I’echantillonnage des items, etc. II arrive, cependant, que les conditions 
d’observation et de mesure soient beaucoup plus complexes. Le probleme se pose 
alors d’etudier la fidelite a rinterieur d’une famille de situations ou si Ton prefere 
d’un univers de generalisabilite . Dans un tel contexte, la notion de score vrcti cede la 
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place a la notion de score univers , score attendu de l’individu dans un ensemble de 
conditions d’observation et de mesure. 

Prenons un exemple pour illustrer tout l’interet de l’etude de generalisabilite. 
Nous savons que la correction de compositions ecrites presente un defi majeur aux 
enseignants. II n’est pas facile d’obtenir des resultats fideles lors de la correction car 
plusieurs f'acteurs peuvent affecter la notation de I’eleve. II y a d’abord le sujet impose 
c| e la composition ecrite. Ensuite, il y a le degre de severite et de Constance de cliaque 
correcteur. Enfin, si chaque correcteur utilise une grille d’appreciation, la clarte et la 
facilite d’utilisation de la grille peuvent egalement influencer le travail de correction et 
de la, le score de l’eleve. Comment traiter une telle situation avec les outils que nous 
avons vus dans ce chapitre, en particulier avec les coefficients de correlation ? 

D’abord, nous pourrions calculer plusieurs resultats pour chaque eleve. Par 
exemple, chaque eleve pourrait obtenir un score sur chaque theme impose, pour 
chaque correcteur ou pour chaque grille de correction. Afin de determiner la fidelite 
inter-correcteurs, nous pourrions calculer les correlations deux a deux entre les resul¬ 
tats accordes par chaque correcteur a chacun des themes. S’il ne devait y avoir que 
deux themes et trois correcteurs, nous devrions alors calculer six correlations : les 
coiTelations entre les correcteurs I et 2, I et 3, 2 et 3 pour le theme 1, el de ineme 
pour le theme 2. Si les correlations entre les correcteurs devaient varier pour les resul¬ 
tats obtenus par les eleves aux deux themes, nous pourrions affirmer que la fide¬ 
lite inter-correcteurs est affectee par la nature du theme impose. La nature du theme 
impose serait consideree comme une source d’erreur de mesure Nous pourrions fa ire 
le ineme type d’analyse en utilisant des coefficients de correlation intra-classe (voir 
section 3.5). 

Bien entendu, nous pourrions simplifier ce probleme en ne calculant la fidelite 
des resultats que pour les moyennes de chaque eleve aux deux compositions ecrites. 
Ceci pourrait ameliorer la fidelite, mais dans quelle mesure ? Le principal benefice de 
cette procedure serait de simplifier le calcul de la fidelite inter-correcteurs. En calcu¬ 
lant des scores moyens pour les themes, il ne nous resterait que trois coefficients de 
correlation a calculer entre les correcteurs 1 et 2, I et 3 et 2 et 3. Mais que pourrions- 
nous dire maintenant de I’elTet de la grille d’appreciation utilisee par les correcteurs ? 

La encore, la procedure a suivre risquerait d’etre longue. En limitant a deux le 
nombre de grilles, nous voudrions sans doute nous assurer de la fidelite des resultats 
obtenus en calculant, pour chaque correcteur, une correlation entre les resultats accor¬ 
des sur chacun des deux themes par les deux grilles. En effet, il faudrait calculer, pour 
l’ensemble des trois correcteurs, 6 coefficients de correlation : les correlations entre 
les resultats aux grilles I et 2 pour le theme 1 et de meme pour le theme 2. Que f'aire 
si les correlations entre les resultats aux grilles 1 et 2 devaient differer sensiblement 
pour le theme 1 et le theme 2 ? Ceci indiquerait que l’une des grilles d’appreciation 
donne lieu a des resultats plus fideles lorsque les compositions des eleves portent sur 
un theme particulier. Comment reduire cette source d’erreur de mesure et comment 
savoir quelle part de cette erreur depend des correcteurs eux-memes ? 

7.1 Notion de score univers 

Cronbach, Gleser et Rajaratnam (1963) out elabore la theorie de la generalisabilite 
dans le but de reunir en un seul concept les differentes definitions de la fidelite. En 
utilisant les principes de l’analyse de variance, Cronbach etal. proposent de quantifier 
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1’importance de chaque source de variation d’une situation de mesure. Le scoi'e vrai 
devient l’esperance matheinatique de toutes les observations possibles et l’erreur est 
le resultat d’une fluctuation dans l’echantillonnage de certains niveaux des facettes 
considerees (evaluateurs, moments, formes d’items, etc.). 

La generalisabilite est done un concept plus englobant que celui de fidelite. II 
permet de decrire des situations de mesure plus complexes et plus pres de la realite. 
Cardinet, Johnson et Pini (2010, p. 23) la definissent ainsi : 

Generalizability thenry, or G theory, is essentially an approach to the estima¬ 
tion of measurement precision in situations where measurements are subject 
to multi pie sources of error, ft is an approach that not only provides a means 
of estimating the dependability of measurements already made, but that also 
enables information about error contributions to be used to improve measure¬ 
ment procedures in future applications. 

Les sources d’erreur de mesure dans un dispositif complexe sont fort nom- 
breuses. L’etude de la fidelite de tels dispositifs doit tenir compte de toutes les facettes 
du plan d’observation et de leurs interactions. Pour y arriver, il faut calculer la varia¬ 
bility des resultats en fonction de ces differentes facettes. C’est done de la fidelite du 
score univers dont il sera question, e’est-a-dire de la fidelite du score dans l’univers 
des conditions decrites par les facettes du plan d’observation 

Cardinet et Tourneur (1985 ; p. 23) definissent ainsi le score univers : 

Le. score univers d’une personne p, donnee ideate, represente la moyenne des 
scores de la personne p, calculee sur toutes les observations admissibles. 0r I’ob- 
servateur utilise le score observe, ou line fonction du score obsen'e, pour estimer 
la valeur du score univers. II generalise ainsi de I’echantillon a la population. 

II y a done un parallele important entre fidelite et generalisabilite. Dans le 
modele classique, la fidelite se definit en termes de correlation entre le score observe 
et le score vrai. Plus la correlation entre les deux est elevee, plus la fidelite est grande. 
Il en va de meme avec la notion de generalisabilite. Elle traduit le degre de correla¬ 
tion entre le score observe et le score univers de l’individu. Plus cette correlation est 
elevee, plus le score observe de l’individu ressemble a celui qu’il obtiendrait s’il etait 
soumis a Pensemble des conditions de l’univers de generalisation. 

Nous ne connaissons pas le score univers directement, mais nous pouvons I’es- 
timer Dans l’exemple precedent, la moyenne des resultats de 1’eleve pour les deux 
themes, notes au moyen de deux grilles differentes partrois correcteurs, constituerait 
le score observe de l’eleve. Ce score observe constitue une bonne estimation du score 
univers de I’eleve jusqu’a un certain point. Si le dispositif de mesure constitue un bon 
echantillon de themes, de correcteurs et de grilles de correction, alors le score observe 
sera representatif de la population des conditions de mesure et sa generalisabilite sera 
elevee. Nous pourrions aussi affirmer que la generalisabilite du score depend de la 
correlation qui existe entre le score univers (ou score vrai) et le score observe dans 
les memes conditions d’observation et de mesure. 

Immediatement, une conclusion s’impose : plus l’echantillon des conditions 
d’observation se rapproche de la population, plus la generalisabilite sera grande. Dans 
notre exemple, si nous augmentions le nombre de themes, de correcteurs et de grilles, 
l’echantillon serait plus important et la generalisabilite du score plus grande. Mais, 
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comment s’assurer d’une bonne generalisabilite ? Toutes les facettes sont-elles aussi 
iinportaiites les lines que les autres ? Comment developper un dispositif de mesure 
qui soit economique et efficace ? Pouvoir repondre a ces questions est la motivation 
premiere des etudes de la theorie de la generalisabilite. 

7.2 Etudes G et D 

L’etude de la generalisabilite permet de tenir compte de multiples sources d’erreur 
dans 1’estimation de la fidelite. Comrne nous venous de le voir, des que nous sommes 
interesses a generaliser a un grand nombre de conditions d’observation, le recours aux 
coeflicients de correlation pour rendre compte de la variability des resultats devient 
rapidement impraticable. Pour tenir compte de I'ensemble des variations qui se pro- 
duisent dans un plan d’observation et des interactions possibles entre les facettes 
de ce plan, l’etude de la generalisabilite se fonde sur 1’analyse de la variance (voir 
Annexe I). Tout comrne 1’analyse de la variance permet un test d’hypothese sur plus 
de deux groupes a la fois, l’etude de generalisabilite permet d’estimer I’importance 
des variations introduces par plus d’une variable ou facette, L’etude de la generalisa¬ 
bilite est done au calcul de la fidelite, ce que 1’analyse de variance est au test t. Pas 
etonnant alors de retrouver I’analyse de variance a la base des methodes de calcul de 
la generalisabilite. 

Tout d’abord, il y a lieu de faire une distinction importante entre les deux fina- 
lites de l’etude de generalisabilite : etude G et etude D. Cette distinction est rendue 
necessaire du fait que l’etude de la generalisabilite permet un plus grand controle sill¬ 
ies sources d’erreur de notre dispositif d’observation. II est done possible de faire 
beaucoup plus que de calculer 1’indice de fidelite d’un score univers (ou coefficient 
de generalisabilite). Le chercheur peut aussi estimer dans quelles conditions son dis¬ 
positif d’observation presentera des conditions optimales. 

Le parallele entre etudes G et D et la theorie classique des tests est difficile a 
etablir, mais il est possible. Lors du calcul de la fidelite d’equivalence, le chercheur 
peut estimer combien d’items paralleles aux items de son test de depart il doit ajouter 
pour obtenir une fidelite acceptable. Nous avons vu que la forniule de Spearman- 
Brown (equation 3.46) nous pennettait de faire ce calcul. Cette estimation de la 
nouvelle fidelite du test obtenue a partir des resultats aux items du test de depart 
correspond a une etude D. Le calcul de la fidelite du test de depart au moyen de la 
correlation entre les deux formes paralleles du test correspond a l’etude G. 

L’etude de la generalisabilite serait d’un interet pratique liinite si elle se limi- 
tait a traduire au moyen d’un coefficient unique le degre de fidelite du score univers 
dans un plan complexe d’observation. A quoi bon connaTtre I’importance des diffe- 
rentes sources de variation et d’erreur de mesure - ce qui est le propre de l’etude G - 
si 1’on ne prend pas le soin de les controler - ce qui est le propre de l’etude D - afin 
de s’assurer d’une meilleure fidelite ou generalisabilite ? 

Les limites du modele classique du score vrai proviennent de la difficulty a 
preciser les sources de variation qu’il faut controler pour diminuer 1’erreur de mesure. 
Dans 1’exemple de depart ou nous avions, en plus des eleves, trois sources irnpor- 
tantes de variation des resultats (les correcteurs, les themes de la composition ecrite, 
les grilles depreciation), seule une etude de la generalisabilite permet de determiner 
la part que jouent chacune de ces trois sources de variation et chacune de leurs inte¬ 
ractions dans la variance d’echantillonnage globale. 
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7.3 Les quatre etapes d'une etude de generalisabilite 

Cardinet et Tourneur (1985) ont etendu la theorie de la generalisabilite initiale telle 
que formulee par Cronbach, Gleser, Nanda et Rajaratnani (1972). En effet, pour 
Cronbach et al, la facette « sujets » constitue le seul objet de mesure utile. Or, en 
psychologie et en education, le chercheur n’est pas uniquement interesse par la stabi¬ 
lite des scores des sujets. II s’interesse aussi a la stabilite des effets d’autres objets de 
mesure tels que les items. II peut s’agir d’estimer la stabilite des efl'ets de diflerentes 
taches ou de diff'erentes modalites de presentation des items introduits dans un plan 
d’observation. Dans de telles conditions, ce ne sont plus les sujets que l’analyse de 
generalisabilite cherchera a differencier, mais bien les taches et les contenus en tant 
qu’objets d’observation 

Cardinet et Tourneur (1985) ont done defini une serie de procedures de calcul 
applicables a tous les types de plans experimentaux et qui permettent de tenir compte 
de tous les projets de mesure. En efl'et, selon ces auteurs (p. 31) : 

L'erreur n’apparent que par rapport a un pro jet de mesure. Elle suppose une 
intention particuliere qui privilegie une ou plusieurs facettes comme condi¬ 
tions d’observation, e’est-a-dire comme sources d’erreurs... C'est (...) a pres 
le clioix d’une direction privilegiee de mesure, que s’insere la tlieorie de la 
generalisabilite. Son role est de preciser Vimportance de la variance due aux 
facettes privilegiees (variance de dijjerenciation) par rapport a la variance 
due a Vechantillonnage des conditions d’observation (variance d’erreur). 

La procedure proposee par Cardinet et Tourneur (1985) s’effectue en quatre 
etapes : les phases 1 et 2 se rapportent a 1’analyse de var iance ; la phase 3 se rapporte a 
1’etude G et la phase 4 a Tetude D. Voici une courte description de ces quatre etapes : 

1. Plan d’observation : on procede au choix des facettes et du nombre de niveaux 
de chaque facette. On precise egalement les interrelations (nichage, croise- 
ment) entre ces facettes. 

2. Plan d’estimation : on determine quelles facettes represented un ensemble de 
niveaux finis ou infinis et quelles facettes sont echantillonnees de faqon alea- 
toire ou exhaustive (effet fixe). 

3. Plan de mesure : on identifie quelles facettes sont liees au pro jet de mesure 
(facettes de differenciation ) et quelles facettes sont considerees comme sources 
d’erreur de mesure ( facettes d’instrumentation). C’est au cours de cette phase 
que les composantes de variance calculees a la phase deux peuvent etre attri- 
buees a la variance vraie ou a la variance d’erreur, permettant ainsi le calcul 
du coefficient de generalisabilite et le calcul de marges d’erreur applicables 
aux scores observes. 

4. Plan (/’optimisation : cette phase consiste a modifier soil le plan d’observation, 
soit le plan d’estimation, soit le plan de mesure ou encore une combinaison 
des trois afin de maximiser la generalisabilite des observations. Le chercheur 
devra trouver alors un equilibre entre precision de la mesure et etendue de 
l’univers de generalisation. En effet, plus l’univers de generalisation est grand, 
plus il est difficile d’obtenir des mesures proches du score univers. Par contre, 
il y a peu d’interet pratique a utiliser des mesures precises lorsque Funivers de 
generalisation est trop etroit. 
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Dans notre exemple de depart, le plan d’observation est constitue de quatre 
facettes : les eleves, les themes des compositions ecrites (2), les correcteurs (3) et 
les grilles de correction (2). Ces facettes sont totalement cmisees si tous les eleves 
ecrivenl sur les deux themes et que chaque theme est cotxige par les trois correcteurs 
utilisant chaque fois deux grilles de correction. II serait possible d’agencer autre- 
ment les facettes de ce plan d’observation. Pai' exemple, il serait possible de nicher la 
facette « correcteur » dans la facette « theme » : deux correcteurs pourraient corriger 
le theme I au moyen des deux grilles pour chaque eleve et deux autres correcteurs 
corrigeraient le theme 2 de la meme faqon. Nous dirions alors que la facette « cor¬ 
recteurs » est nichee dans la facette « themes », car les deux themes ne sont pas 
corriges par tous les correcteurs. Une telle faijon de proceder se justifie lorsque Ton 
souhaite attribuer la notation de chaque theme aux correcteurs les plus experimentes 
sur chaque theme. 

Le plan d’estimation de notre exemple nous amene a definir le mode d’echan- 
tillonnage de nos facettes. Les eleves peuvent etre consideres comme ayant ete tires 
au hasard d’une population infinie ou finie (si Lon en connaTt la taille comme c’est 
le cas des eleves appartenant a un meme district scolaire). En ce qui concerne les 
autres facettes, le plan d’estimation peut etre plus delicat a etablir. Les correcteurs peu¬ 
vent aussi etre consideres comme tires d’une population finie ou infinie de correcteurs. 
Cette population serait consideree comme finie si I’on connaissait tous les enseignants 
susceptibles de corriger les epreuves. Les grilles de correction peuvent etre conside- 
rees comme ayant ete drees d'une infinite de possibilites de grilles. Nous pouvons 
aussi considerer comme fixe cette facette et ne souhaiter generaliser les resultats des 
eleves qu’a deux grilles. Cette procedure serait adequate si, d’annee en annee, les deux 
memes grilles etaient reutilisees. Quant aux deux themes, les memes choix s’imposent: 
voulons-nous generaliser les resultats des eleves a ces deux seuls themes ou a tous 
les themes ? II peut etre difficile de definir la population des themes : le programme 
d etudes peut en prevoir un certain nombre. Dans ce cas, il serait possible de considerer 
les themes comme ayant ete tires d’une population finie, si notre but est de generaliser 
a I’ensemble des themes definis par le programme d’etudes. On pourrait justifier une 
telle procedure si d’une annee a I’autre, deux nouveaux themes etaient tires au hasard 
de I’ensemble des themes de composition ecrite prevus au programme d’etudes. 

Pour simplifier la situation, nous considererons que tous les niveaux de 
facettes out ete tires de populations infinies. Ceci aura pour effet de simplifier le 
calcul des composantes de variance. Dans le cas ou les niveaux d’une ou plusieurs 
facettes devaient etre tires d’une population finie ou encore representer un echan- 
tillon exhaustif de tous les niveaux, le calcul des composantes de variance se ferait 
differemment. 

Dans le plan de mesure, nous devons preciser la ou les facette(s) liees a notre 
projet de mesure. Si c’est le score de chaque eleve en composition ecrite qui nous 
interesse, alors la facette « sujets » sera consideree comme facette de differencia- 
tion et les facettes « correcteurs », « themes » et « grilles de correction » comme 
des facettes d’instrumentation. Parcontre, si c’est la fidehte des correcteurs qui nous 
preoccupe, c’est la facette « correcteurs » qui deviendra facette de differenciation. 
La facette « sujets » sera alors consideree comme facette d’instrumentation avec les 
deux autres lacettes En effet, dans cette perspective, la fidelite des resultats octroyes 
par les correcteurs depend des variations que les sujets introduisent dans la qualite de 
leurs productions ecrites 
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Une fois le calcul des composantes de variance termine (ou etude G), nous 
pouvons passer a une quatrieme etape : le plan d’optimisation ou etude D. Cette der- 
niere etape nous permettra d’entrevoir differents moyens d’ameliorer notre dispositif 
de mesure. 

7.4 Representation graphique des composantes de variance 

La figure 3.8 presente les sources de variation du plan d’observation de l’exemple ini¬ 
tial pour deux des trois facettes : les correcteurs (C) et les themes (T). Le cliagramme 
de Cronbach est employe pour representer graphiquement les sources de variation et 
leurs interactions. La facette de diffe'renciation « sujets » (S) y est illustree en gris, en 
plus des facettes d’instrumentation C et T (« correcteurs » et « themes ») en blanc. 
Elies sont entierement croisees avec la facette S. Les aires d’intersection entre les 
ellipses representent les interactions entre facettes. 

La figure 3.9 presente les sources de variation du plan d’observation lorsque 
les correcteurs sont niches sous chacun des deux themes. Le nichage des facettes est 
represente par 1’inclusion d’une ellipse {facette nichee) dans une ellipse plus grande 
(facette nichante). La relation de nichage est indiquee par les deux points « : ». Ainsi, 
C:T signifie que la facette « correcteurs » est nichee dans la facette « themes » Ce 
nouveau plan d’observation rend impossible 1’identification d’une composante d’in- 
teraction SC independante de la composante T. Du fait que la facette C est mainte- 
nant nichee dans T, la composante C ne peut plus etre distinguee de la composante 
CT. De meme, le nouveau plan d’observation rend impossible 1 ’identification d’une 



Figure 3.8 — Diagramme de Cronbach de trois facettes croisees 



Figure 3.9 — Diagramme de Cronbach illustrant deux facettes nichees 
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composante d’interaction SC independante de la composante SCT, car les deux sont 
confondues dans la composante SC:T. 

La figure 3.10 nous montre de plus pres les composantes de variance entrant 
dans la composition de la variance de la facette « sujets » pour le plan d’observation 
de I’exemple initial (figure 3.8). Nous retrouvons a I’interieur de 1’ellipse de la facette 
S (en gris) des composantes de variation partagees avec les facettes d’instrumenta¬ 
tion ou imivers de generalisation. En effet, les resultats des eleves ne dependent pas 
que de leurs differences individuelles. Si les correcteurs ont ete moins severes envers 
certains eleves, cette interaction SC entrera coniine composante de la variation entre 
les sujets. De meme, si le theme 1 s’avere plus facile pour ceilains eleves, alors 
que le theme 2 est plus facile pour d’autres, cette nouvelle interaction ST s’ajoutera 
aux sources de variation. Enfin. il est possible que selon le correcteur et I’eleve, la 
composition ecrite sous un theme soit notee plus ou moins severement. Cette triple 
interaction STC s’ajoute a nouveau aux sources de variation entre les sujets. Toutes 
ces sources de variation s’accumulent coniine composantes plus ou moins grandes de 
la variation entre les sujets et constituent autant de sources d’erreur qui masquent les 
differences reelles entre les sujets. Comment intervenir dans ces circonstances pour 
ameliorer la generalisabilite ? 

Plusieurs possibilites s’off rent a nous. Devons-nous accroitre le nombre de 
correcteurs ? Serait-il preferable de reduire le nombre de correcteurs, mais d’accroTtre 
le nombre de themes des compositions ecrites realisees par chaque eleve ? Deux 
grilles d’appreciation sont-elles necessaires ? Voila autant de points sur lesquels une 
decision doit etre prise et ou I’etude D est susceptible de rendre de precieux services. 
Pour ce faire, il nous faut connaTtre I’importance de ces sources de variations. C’est 
ce que permettra de realiser I'etude G des composantes de variance. 

Dans une situation ideale, la plus grande part de la variance entre les sujets 
dependrait uniquement des sujets. Les interactions « correcteurs x sujets » et 
« themes x sujets », considerees coniine des sources d’erreur, ne representeraient 
qu’une petite proportion de la variance totale entre sujets. La mesure est au contraire 
insatisfaisante lorsqu’une grande proportion de la variation entre les sujets est impu¬ 
table a ces interactions. Tant dans le modele classique que dans I’etude de la gene¬ 
ralisabilite, la fidelite est calculee a partir de la proportion de la variance observee 
qui est due a la variance des scores vrais. Dans le contexte de la theorie de la gene¬ 
ralisabilite, la variance due aux scores vrais est remplacee par ce qu’il est convenu 
d’appeler la variance de dijferenciation ou si Ton prefere la variance attendue des 
scores imivers. 



Figure 3.10 — Diagramme de Cronbach des composantes 
de variance de la facette S 
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7.5 Representation symbolique 

L’indice de lidelite tire de F etude de la generalisabilite se definit done simplement 
coniine la proportion de la variance des scores observes resultant de la variance de 
differenciation : 

p : = r° - , (3-61) 

a; + a; 

Dans I’equation precedente, a; represente la variance de differenciation ou variance 
attendue des scores univers et {o[ + a, 3 ) represente la variance attendue des scores 
observes. Par definition, c'est la sonnne de la variance des scores univers et de la 
variance des erreurs d’echantillonnage. Le tenne d’erreur cr depend de plusieurs fac- 
teurs. Intuitivement, il est facile de coinprendre que plus Funivers de generalisation 
est grand, plus ce tenne risque d’etre eleve. Enfin, selon que nous soinines interesses 
par la valeur absolue du score univers (coniine en evaluation criteriee, voir chapitre 1) 
ou par sa valeur relative (coniine en evaluation normative, voir aussi le chapitre 6), la 
coinposante d’erreur sera differente. 

7.6 Erreur absolue et erreur relative 

Deux types d’erreurs nous preoccupent particulierenient lorsqu’il s’agit de fide¬ 
lite de la inesure : Ferreur relative et 1’erreur absolue. L’erreur relative se produit 
lorsque la position des resultats les uns par rapport aux autres se trouve changee. 
L’erreur absolue se produit lorsque la valeur absolue des resultats, telle que niesu- 
ree sur une echelle dont les echelons sont definis a priori, est changee. Dans un 
concours ou une evaluation de type selection, Ferreur absolue n’a pas d’impor- 
tance : il s’agit de ne selectionner que les ineilleurs, quel que soit le score obtenu 
par chaque participant(e). Par contre, dans une epreuve de certification ou pour 
etre adniis clans une profession ou un programme d’etudes contingente, la valeur 
absolue du resultat est egalement importante. Ce n’est pas la position relative du 
score par rapport aux autres scores qui nous preoccupe, mais c’est da vantage la 
position de ce score par rapport a un seuil de reussite. Il ne serait pas approprie de 
permettre a quelqu’un de conduire un vehicule automobile sur la seule base qu’il 
s’est avere le conducteur le moins mauvais parmi ceux qui se sont presentes. Pour 
obtenir un permis de conduire, le conducteur en question doit demontrer une perfor¬ 
mance minimale. En tenant compte de Ferreur absolue de mesure, nous prenons en 
consideration non seulement l’erreur relative, mais aussi les composantes d’erreur 
qui affectent la valeur absolue du score de la performance par rapport a un seuil de 
reussite. 

Cette distinction entre erreur relative et erreur absolue est essentielle en 
psychologie et en education. Dans tout systeme de mesure ou des seuils critiques 
sont utilises pour determiner si un stade a ete atteint, une etape de developpe- 
ment franchie, un seuil de mattrise atteint, l’erreur absolue de mesure joue un role 
important En psychologie differentielle, c’est 1’erreur sur les positions relatives 
qui est la plus pertinente. Par exemple, lorsque les tests d’aptitude sont utilises 
a des fins de selection, l’erreur relative prime. Le directeur d’ecole qui souhaite 
creer une classe regroupant les ineilleurs eleves n’est pas preoccupe par l’erreur 
absolue. 11 lui importe de selectionner les 25 ineilleurs candidats pour cette classe 
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quelle que soil la valeur absolue de leurs resultats. Si pour creer une telle classe, 
cliaque eleve devait avoir un Q[ de 120 et plus, il se pourrait qu’il ne trouve dans 
son ecole que peu d’eleves de ce niveau et ne puisse creer la classe projetee. II lui 
serait alors impossible de creer une classe a voie enrichie avec le seuil de reussile 
fixe. 

7.7 Simulation d'une etude de generalisabilite 

Nous ne presenterons pas ici les details des procedures de calcul intervenant clans 
l'etude de generalisabilite. II faut pour cela une connaissance approfondie de l’ana- 
lyse de variance et de I’estimation statistique qui depasse les prerequis de cet ouvrage. 
II est possible, parcontre, de saisir I’utilite de l’etude de generalisabilite a travers une 
simulation qui illustre sa capacite a apporter des solutions satisfaisantes a bon nombre 
de problemes courants impliquant la fidelite de la mesure. 

Cette simulation auracomme principal avantage de nous permettre de connaitre 
ci priori les elTets introduits par les principales facettes impliquees dans la variation 
des resultats Nous serous done a meme de constater comment l'etude de la gene¬ 
ralisabilite permet de retrouver les principaux elTets et leurs interactions introduits 
dans les donnees de depart et d'observer comment ceux-ci affectent 1’estimation de 
la fidelite. 

La situation que nous chercherons a decrire est celle de la fidelite des notes 
accordees par des juges a une serie de plongeons aux figures imposees. Cette situa¬ 
tion est representee graphiquement par le diagramme de Cronbach de la figure 3.1 1. 
Comme on peut le constater, trois principales sources d’erreur relative sont en jeu : 
la possibilite que les juges notent diff'eremment un meme sujet (SJ), la possibilite 
qu’un meme sujet eprouve des difficultes pailiculieres pour un plongeon plutot qu’un 
autre (SP) et enfin, la possibilite que les juges notent differemment des plongeons en 
fonction de cliaque sujet (SJP). Si notre objectif se Iimite a classer les plongeurs et 
a decerner trois medailles (or, argent et bronze), ces sources d’erreur sont les seules 
qui devraient nous preoccupercar elles affectent la position relative d’un plongeur par 
rapport a un autre II nous importe peu de savoir si le medaille d’or merite 7,4 plutot 
que 6.9. L’essentiel est que son score soit le plus eleve, quel que soit lejuge qui I’ait 
note ou le plongeon qu'il ait execute. 

Par contre, si la valeur absolue du score est importante, il faudrait tenir 
compte de sources d’erreur additionnelles, Pour etre admis comme sauveteur, il ne 
suffit pas d’etre le meilleur de son groupe. II faut aussi executer les plongeons avec 



Plongeons 


Figure 3.11 — Diagramme de Cronbach du plan d'observation de la simulation 
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Tableau 3.11 — Donnees de deport de lo simulation 


Sujets 

Score 

J1 

J1 

J1 

J2 

J2 

J2 

J3 

J3 

J3 

Scare 

univers 

PI 

P2 

P3 

PI 

P2 

P3 

PI 

P2 

P3 

observe 

1 

3,01 

3,01 

3,01 

3,01 

3,01 

3,01 

3,01 

3,01 

3,01 

3,01 

3,01 

2 

6,30 

6,30 

6,30 




6,30 

6,30 

6,30 

6,30 

6,30 

3 

3,91 

3,91 

3,91 

3,91 

3,91 

3,91 

3,91 

3,91 

3,91 

3,91 

3,91 

4 

5,49 

5,49 

5,49 

5,49 

5,49 

5,49 

5,49 

5,49 

5,49 

5,49 

5,49 

5 

4,51 

4,51 

4,51 



4,51 

4,51 

4,51 

4,51 



6 

5,77 

5,77 




5,77 

5,77 

5,77 

5,77 

5,77 

5,77 

7 


4,76 



4,76 

4,76 

4,76 

4,76 

4,76 

4,76 

4,76 

8 



4,21 

4,21 

4,21 

4,21 

4,21 

4,21 



4,21 

9 


5,06 

5,06 

5,06 

5,06 

5,06 

5,06 

5,06 

5,06 

5,06 

5,06 


5,68 

5,68 

5,68 

5,68 

5,68 

5,68 

5,68 

5,68 

5,68 

5,68 

5,68 

11 





6,21 

6,21 

6,21 

6,21 

6,21 

6,21 

6,21 

12 

6,18 

6,18 

6,18 

6,18 

6,18 

6,18 

6,18 

6,18 

6,18 

6,18 

6,18 

Moyenne 

5,09 

5,09 

5,09 

5,09 

5,09 

5,09 

5,09 

5,09 

5,09 

5,09 

5,09 

Ecart type 

0,99 

0,99 

0,99 

0,99 

0,99 

0,99 

0,99 

0,99 

0,99 

0,99 

0,99 


tin certain degre de maitrise. La valeur absolue de la performance devient priinor- 
diale. En plus des sources d’erreur relative, nous devrions tenir compte de la seve¬ 
rity des juges et de la difficulty des plongeons refemis. Si, par hasard, trois juges 
particulierement severes etaient choisis, les resultats de tous les plongeurs seraient 
sous-estimes. Si, de la meme maniere, les exercices cornptaient parmi les figures 
imposees les plus difliciles, la encore les plongeurs risqueraient de rater le seuil de 
maitrise fixe. 

Le tableau 3.1 I presente la situation des plongeurs avant que nous introdui- 
sions les effets pour les facettes principales (juges et plongeons) et leurs interactions. 
Ces douze plongeurs ont ete tires au hasard d’une population ou le score univers 
moyen vaut 5 et la variance des scores univers vaut 1. En Labsence d’ecarts intro- 
duits par la severity des juges ou par la difficulty des plongeons, le score observe 
demeure identique au score univers pour cliaque plongeur. Nous sommes dans une 
situation oil, a I’evidence, ni les plongeons, ni les juges ne sont une source d’erreur 
aleatoire. Cette situation nous conduirait a une generalisabilite parfaite du resultat des 
plongeurs, puisque celui-ci demeurerait le meme pen importe le juge ou le plongeon 
execute. Cette situation, quoiqu’ideale, n’est pas realiste. 

Le tableau 3.12 introduit des effets pour les juges et pour les plongeons. Le 
juge 2 est le moins severe, car il alloue 1,5 point de plus a tous les plongeurs. Les 
juges 1 et 3, plus severes, accordent quant a eux un resultat inferieur de - 0,75 a 
chaque plongeur. Quant aux plongeons, le premier est celui pour lequel les ath¬ 
letes se voient accorder le plus de points (ou le plus facile), suivi des plongeons 2 
et 3. 
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Tableau 3.12 — Effets des juges et des plongeons ajoutes aux donnees de depart 
|J1 = - 0,75 ; J2 = + 1,5 ; J3 = - 0,75] 

(PI = + 0,5 ; P2 = + 0,25 ; P3 = - 0,75) 


Sujets 

Score J1 Jl J1 J2 

univers PI P2 P3 PI 

J2 

P2 

J2 

P3 

J3 

PI 

J3 J3 Score 

P2 P3 observe 

1 

3,01 

2,76 

2,51 

1,51 

5,01 



2,76 

2,51 

1,51 

3,01 

2 

6,30 

6,05 

5,80 

4,80 

8,30 



6,05 

5,80 

4,80 

6,30 

3 

3,91 








GH 


3,91 

4 

5,49 


Ell 





BH 



5,49 

5 

4,51 


Pi 








4,51 

6 

5,77 

5,52 



7,77 

7,52 

6,52 

5,52 

5,27 

4,27 

5,77 

7 



4,26 

3,26 

6,76 

6,51 

5,51 

4,51 

4,26 

3,26 

4,76 

8 

4,21 

3,96 






3,96 

3,71 

2,71 


9 

5,06 

4,81 

4,56 



6,81 

5,81 

4,81 

4,56 

3,56 

5,06 

10 

5,68 

5,43 

5,18 




6,43 

5,43 

5,18 

4,18 

HI 

11 

6,21 

5,96 

5,71 






5,71 

4,71 

6,21 

12 

6,18 









4,68 

6,18 

Moyenne 


4,84 

4,59 

3,59 


6,84 

5,84 

4,84 

4,59 

3,59 

ESI 

Ecort type 

0,99 

0,99 

0,99 

0,99 

0,99 

0,99 

0,99 

0,99 

0,99 

0,99 

0,99 


Ces ecarts introduits par les juges et les plongeons tendent a surestimer ou a 
sous-estimer a chaque notation I’habilete des plongeurs. II en resulte une note superieure 
ou inferieure au score univers de plongeon de chaque athlete. Dans notre exemple, afin 
de simplifier I’interpretation, la somme des erreurs d’estimation s’annule lorsque I’on 
prend en consideration tous les juges et tous les plongeons. C’est pourquoi, meme si les 
resultats individuels out change, leur moyenne par sujet demeure constante 

II existe tout de meme une erreur absolue sur chaque note. En effet, selon que 
I’on considere un juge plutot qu’un autre, ou encore un plongeon plutot qu’un autre, 
la note varie. Cette erreur absolue serait importante si le but de cet exercice etait de 
determiner ceux et celles qui out atteint un seuil de performance pour acceder au 
metier de sauveteur. Si un seuil de 8 est exige en plongeon, plusieurs plongeurs se 
verraient acceptes par certains juges pour certains plongeons, alors qu’ils auraient du 
etre refuses. II s’agirait d e faux positifs (voir chapitre 4) : ces plongeurs sont acceptes 
sur base de leur score observe, alors qu’ils devraient etre refuses, etant donne leur 
score univers (ou score vrai). 

Ce type d’erreur absolue n’a toutefois lien a voir avec le classement relatif des 
plongeurs. S’il s’agit d’une competition devant determiner les trois meilleurs, la seve- 
rite des juges ou la facilite des plongeons n’ont aucun effet sur la position relative de 
chaque plongeur dans le classement. Si I’on additionne les points merites par chaque 
plongeur, on observe que le plongeur 2 est toujours celui qui merite la moyenne la 
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Tableau 3.13 — Interaction juges x plongeons 



J1 

J2 

J3 

PI 

0 

- 0,25 

- 0,5 

P2 

0 

0,25 

0 

P3 

0,5 

0 

0 


plus elevee. Les effets ajoutes ayant joue pour tous, le classement n’esl pas affecte. 
Done, la generalisabilite relative des resultats du tableau 10 demeure parfaite. 

Une autre source d’erreur absolue pourrait se presenter si les juges, en plus 
d’etre plus ou moins severes entre eux, diff eraient quant aux resultats qu’ils accordent 
a chaque plongeon, Dans la situation precedente, le juge 2 accordait 1,5 de plus a 
chaque plongeur et ce, peu importe le plongeon, II en allail de ineine pour les autres 
juges. Bref, tous les juges etaient constants dans leur degre d’indulgence ou de seve- 
rite, peu importe le plongeon. 

La matrice du tableau 3.13 nous indique les effets d’interaction entre les trois 
juges et les trois plongeons. Le juge 1, par exemple, accorde 0,5 point de plus au 
plongeon 3, alors que le juge 3 enleve - 0,5 point au plongeon I. Un tel compor- 
tement des juges I et 3 pourrait s’expliquer par le fait que ces deux juges evaluent 
differemment la coinplexite du plongeon. Le juge 3, considerant le plongeon I plus 
facile que les deux autres, est plus severe pour ce plongeon. Le juge 1, considerant le 
plongeon 3 comme plus difficile, est plus indulgent. 


Tableau 3.14 — Ajout de I'interaction juges x plongeons aux donnees 


Sujets 

Score 

J1 

J1 

Ji 

J2 

J2 

J2 

J3 

J3 

J3 

Score 

univers 

PI 

P2 

P3 

PI 

P2 

P3 

PI 

P2 

P3 

observe 

1 


2,76 

2,51 

in 

4,76 

5,01 

3,76 

2,26 

2,51 

1,51 


2 

6,30 

6,05 


B j 

8,05 

8,30 

7,05 

5,55 

5,80 

4,80 


3 

3,91 

3,66 

3,41 

2,91 

5,66 

5,91 

4,66 

3,16 

3,41 

2,41 


4 

5,49 

5,24 

4,99 



7,49 

6,24 

4,74 

4,99 

3,99 

5,49 

5 

4,51 

4,26 

4,01 

3,51 

6,26 

6,51 

5,26 

3,76 

4,01 

3,01 

4,51 

6 

5,77 

5,52 

5,27 

4,77 

7,52 

7,77 

6,52 

5,02 

5,27 

4,27 

5,77 

7 

4,76 

4,51 

4,26 

3,76 

6,51 



4,01 

4,26 

3,26 

4,76 

8 

4,21 

3,96 

3,71 



6,2) 

4,96 

3,46 

3,71 

2,71 

4,21 

9 

5,06 

4,81 

4,56 



7,06 

5,81 

4,31 

4,56 

3,56 

5,06 

10 

5,68 

5,43 

5,18 

4,68 

7,43 

7,68 

6,43 

4,93 

5,18 

4,18 

5,68 

11 

6,21 

5,96 

5,71 

5,21 

7,96 

8,21 

6,96 

5,46 

5,71 

4,71 

6,21 

12 

6,18 

5,93 

5,68 

5,18 

7,93 

8,18 

6,93 

5,43 

5,68 

4,68 

6,18 

Moyenne 

5,09 

4,84 

4,59 

4,09 

6,84 

7,09 

5,84 

4,34 

4,59 

3,59 

5,09 

Ecart type 











0,99 
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Tableau 3.15 — Interaction juges x sujets 


Sujets 

Jl 

J2 

J3 

1 

0 

0 

0,25 

2 

0 

0 

0 

3 

0,5 

0,5 

- 0,25 

4 

0 

0 

- 0,75 

5 

0 

0 

0 

6 

- 0,5 

- 0,25 

0,5 

7 

0 

0 

0 

8 

- 1 

1 

- 1 

9 

0 

0 

0,25 

10 

0 

0 

0,25 

11 

0 

0 

0 

12 

1 

- 1 

0,5 


Ces ecarts dus a I’interaction «juges x plongeons » ont ete ajoutes aux resul- 
tats du tableau 3.10 pour donner les resultats du tableau 3.12. Puisque la somrne de 
ces interactions est nulle et que chaque plongeur a ete affecte egalement par I’effet de 
ces interactions, ni la valeur absolue de leur score individuel, ni le classement n’ont 
ete affectes. Le plongeur 2 demeure toujours le champion. La seule erreur due a cette 
interaction est une erreur absolue dans I’estimation du score univers pour un juge et 
un plongeon particulier. L’erreur relative demeure nulle. 

Les resultats des tableaux 3.12 et 3.14 nous presentent des valeurs constantes en 
termes de classement. Celui-ci est demeure le merne parce que sur I’ensemble des trois 
plongeons, les trois juges ont toujours eu la merne attitude envers chaque plongeur. Si 
chaque juge devait accorder plus de points a un sujet en particulier a cause de criteres 
subjectifs ou d’une interpretation personnelle des criteres devaluation, il y aurait une inte¬ 
raction entre les juges et les sujets qui pourrait ressembler a ce que deceit le tableau 3.13. 

On note dans le tableau 3.15 qu’en ce qui concerne les sujets 2, 5, 7 et 11, il 
n’y a eu aucune interaction. Par contre, le sujet 8 se voit accorder 1 point de moins 
par les juges I et 3 et 1 point de plus par le juge 2 11 en va de merne des autres plon- 
geurs, merne si la grandeur des elfets d’interaction peut varier. Ces efl'ets d’interac- 
tion signifient qu’un juge a accorde plus de points ou moins de points a un plongeur 
particulier. Le juge 2, celui qui accorde le plus de points a tous les plongeurs, peu 
importe le plongeon, a donne un point de plus au sujet 8 et un point de moins au 
sujet 12. Le classement des plongeurs est affecte par de telles interactions. C’est la 
une source importante d’erreur relative. Les juges peuvent differer entre eux dans leur 
notation des plongeurs et se laisser influencer par des criteres non objectifs. 

Le tableau 3.16 presente les nouveaux resultats, une fois ajoutee I’interaction 
entre juges et sujets. Si Lon compare les scores observes, on constate que, pour la 
premiere fois, le classement des plongeurs a ete affecte par ces efl'ets d’interaction. 
En effet, le champion n’est plus le plongeur #2 (6,30), inais bien le plongeur #12 
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Tableau 3.16 — Ajout de I'interaction juges x sujets aux donnees 


Sujets 

Score 

J1 

J I 

J1 

J 2 

J 2 

J 2 

J 3 

J 3 

J 3 

Score 

observe 

PI 

P 2 

P 3 

P 1 

P 2 

P 3 

PI 

P 2 

P 3 

univers 

1 

3,01 

2,76 

2,51 

2,01 

4,76 




2,76 

1,76 

3,10 

2 

6,30 

6,05 

5,80 

5,30 

8,05 




5,80 


6,30 

3 

3,91 

4,16 

3,91 

3,41 

6,16 





WSl 

4,16 

4 

5,49 

5,24 

4,99 

4,49 

7,24 





ESI 

5,24 

5 

4,51 

4,26 

4,01 

3,51 

6,26 


5,26 

3,76 


3,01 

4,51 

6 

5,77 

5,02 

4,77 

4,27 

7,27 


6,27 

5,52 


4,77 

5,68 

7 

4,76 

4,51 

4,26 

3,76 

6,51 


5,51 

4,01 


3,26 

4,76 

8 

4,21 

2,96 

2,71 

2,21 

6,96 

7,21 



2,71 

1,71 

3,88 

9 

5,06 

4,81 

4,56 

4,06 

6,81 

7,06 

5,81 

4,56 

4,81 

3,81 

5,14 

10 

5,68 

5,43 

5,18 

4,68 

7,43 

7,68 

6,43 

5,18 

5,43 

4,43 

5,76 

11 

6,21 

5,96 

5,71 

5,21 

7,96 

8,21 


5,46 

5,71 

4,71 

6,21 

12 

6,18 

6,93 

6,68 

6,18 

6,93 

7,18 



6,18 

5,18 

6,35 

Moyenne 

5,09 

4,84 

4,59 

4,09 

6,86 

7,11 



4,57 

3,57 

5,09 

Ecort type 

0,99 

1,17 

1,17 

1,17 

0,85 

0,85 

0,85 

1,19 

1,19 

1,19 

1,00 


Tableau 3.17 — Interaction sujets x plongeons 


Sujets 

PI 

P2 

P3 

1 

0,5 

0,25 

- 0,75 

2 

0 

0 

0 

3 

0 

0 

0 

4 

0 

0 

0 

5 

0,25 

0,25 

- 0,25 

6 

0 

0 

0 

7 

0 

0 

0 

8 

0 

0 

0 

9 

- 0,5 

- 0,25 

0 

10 

0 

0 

0 

11 

0 

0 

0 

12 

0 

0 

0,5 


(6,35). Les scores individuels de cliaque plongeur ont ete affectes par ces interactions 
«juges x sujets », merne si la somme de ces interactions, egale a 0, ne change pas la 
moyenne du groupe des 12 plongeurs. Si le classement des plongeurs est primordial, 




























































































































L'etude dela generalisabilite 


151 


Tableau 3.18 — Ajout de I'interaction plongeons x sujets aux donnees 


Sujets 

Score 

univers 

J1 

PI 

J1 J1 J2 

P2 P3 PI 

J2 

P2 

J2 J3 J3 

P3 PI P2 

J3 

P3 

Score 

observe 

Ecart 

type 

1 

3,01 

3,26 

2,76 

1,26 

5,26 

5,26 

3,01 

3,01 

3,01 

1,01 

3,10 

1,38 

2 


6,05 

5,80 

5,30 








1,15 



4,16 

3,91 

3,41 









. 

5,49 

5,24 

4,99 

4,49 









5 


4,51 

4,26 

3,26 

6,51 

6,76 



4,26 

2,76 

4,59 


6 










4,77 

5,68 

us 

7 










3,26 

4,76 

1,15 

8 


2,96 

2,71 

2,21 

6,96 




2,71 

1,71 

3,88 

E9 


K 

4,31 

4,31 

4,06 

6,31 

6,81 

5,81 

4,06 

4,56 

3,81 





5,43 

5,18 

4,68 

7,43 




5,43 

4,43 


| 

11 

6,21 

5,96 

5,71 

5,21 

7,96 

8,21 

6,96 

5,46 


4,71 

6,21 

1,15 

12 


6,93 

6,68 

6,68 

6,93 

7,18 

6,43 

5,93 



6,52 


Moyenne 

5,09 

4,86 

4,61 

4,05 

6,88 

7,13 

5,82 

4,34 

4,59 

3,53 

5,09 

1,22 

Ecart type 

0,99 

1,10 

1,13 

1,38 

0,76 

0,79 

1,04 

1,12 

1,15 

1,36 

1,01 

0,34 


nous voudrions certainement reduire au minimum I’importance de ces erreurs rela¬ 
tives dans la variation des scores observes des sujets. 

L’interaction « juges x sujets » n’est pas la seule source d’erreur relative 
qui puisse affecter le classement des plongeurs. Jusqu’ici, nous avons admis que la 
valeur relative des resultats obtenus a chaque plongeon etait identique pour cliaque 
plongeur. Un tel postulat serait admissible si, par exemple, le plongeon I etait le 
plus facile et qu’il en allait de meme pour tous les sujets Mais, ce postulat se veri- 
lie mal dans la realite. Si un plongeon peut etre le plus facile pour une majorite de 
sujets, il est possible que la difficult^ relative de cliaque plongeon varie d’un sujet a 
I’autre. C’est ce que tente d’illustrer la matrice d’interaction « sujets x plongeons » 
du tableau 3.17. 

Dans ce tableau, on constate que le plongeon 1 s’avere le plus difficile des 
trois pour le sujet 9. Par contre, pour le sujet 1, c’est le plus facile. Dans I’ensemble, 
peu de sujets semblent affectes par cette interaction. Pour huit des 12 plongeurs, la 
difliculte relative de cliaque plongeon ne change pas. Cette interaction peut-elle etre 
consideree conime negligeable pour I’ensemble des plongeurs ? 

Nous pourrions ajouter encore la triple interaction « juges x plongeons x 
sujets ». Nous postulerons que celle-ci est nulle pour toutes les combinaisons de 
facettes. Le tableau 3.18 presente les resultats des 12 plongeurs une fois la double 
interaction « sujets x plongeons » ajoutee aux resultats du tableau precedent. L’effet sur 
le classement est sensible. Le plongeur dont le score univers etait le plus eleve se classe 
maintenant second. La medaille d’or lui echappe a cause d’erreurs relatives de mesure 
occasionnees par les differentes interactions. Quant au vainqueur, le plongeur 12, son 
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Tableau 3.19 — Analyse de variance et calcul des composantes de variance 


Source Somme 

de variation des carres 

Deqre , . 

de liberte C ™Y e " 

Composante % de variance 
de variance totale 

S 

110,65 

11 

10,059 

1,003 

30 

J 

127,16 

2 

63,578 

1,729 

51 

SJ 

18,72 

22 

0,851 

0.284 

8 

P 

21,22 

2 

10,610 

0,276 

8 

SP 

3,91 

22 

0,178 

0,059 

2 

JP 

2,00 

4 

0,500 

0,042 

1 

SJP 

0,00 

44 

0,000 


0 


score univers de depart le classait troisieme : le bronze s’est transforme en or pour ce 
plongeur grace a une serie d’erreurs relatives de mesure favorables ! 

7.8 Analyse de variance et etude de generalisabilite 

C’est a partir de I’analyse de variance que I’etude de la generalisabilite permet de 
determiner les contributions relatives de chacune des facettes d’un dispositif de 
mesure, soit a la variance des scores univers (variance de differentiation), soit a 
la variance d’erreur relative ou absolue (variance d’instrumentation). Le calcul des 
differentes composantes de variance associees a un plan de mesure requiert une 
excellente connaissance de I’analyse de variance et des lois de I’estimation statis- 
tique Pour plus de renseignements a ce sujet, le lecteur pourra consulter le livre 
de Cardinet, Johnson & Pini (2010) qui precise toutes les etapes de ces calculs ou 
encore telecharger le logiciel EduG qui complete ce livre (http://wwwirdp.ch/edu- 
metrie/logiciels.htm). Une fois les calculs de composantes de variance effectues, 
l’etude de generalisabilite peut se poursuivre. Les resultats peuvent ressembler a ce 
que nous retrouvons au tableau 3.19 pour les donnees de la simulation presentees 
dans le tableau 3.18. On y trouve les resultats habituels de I’analyse de variance 
(sources de variance, degres de liberte, canes moyens). Dans les deux dernieres 
colonnes, on y a ajoute des renseignements propres a I’etude de la generalisabi¬ 
lite : le calcul des composantes de variance exprimees en valeurs absolues et en 
pourcentages. 

Les composantes de variance nous fournissent de precieuses informations en 
elles-memes. Elies nous indiquent quelles facettes sont responsables de la plus grande 
partie de la variance. En principe, nous devrions y retrouver les effets que nous avons 
introduits dans notre simulation. D’apres le tableau 3.17, les composantes les plus 
importantes sont celles liees a la facette sujets (30 %) et a celle desjuges (51 %). La 
composante de variance de la facette J est de beaucoup superieure a celle de la facette 
des plongeons P. Les effets simples introduits pour la facette J sont de - 0.75, + 1,5 et 
- 0,75 (une etendue de 2,25). Pour la facette P, ils sont de + 0,5, + 0,25 et - 0,75 (une 
etendue de 1,25). Que les resultats accordes parlesjuges constituent une composante 
de variance plus importante des resultats que le type de plongeon execute est done 
conforme a notre modele de simulation. 
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Parmi les composantes cTinteraction les plus importantes, seule I’interaction 
SJ vaut la peine de s'y attarder. Elle represente 8 % de la variance totale. Elle indique 
que les juges ne sont pas constants entre eux dans leur classenient d’un meme sujet. 
Pour un juge, un plongeur pourrait meriter le meilleur score, alors que pour un autre 
juge, ce meme plongeur pourrait se classer ties dilTeremment. Cette composante de 
variance est la seule source d’erreur relative vraiment importante. La composante de 
variance associee a Pinteraction SP est bien moindre (etendue de - 0,75 a + 0,5) que 
celle due a I’interaction SJ (etendue de - 1 a + 1). Encore une fois, les resultats de 
Panalyse des composantes de variance sont fideles a notre modele. 

Les autres composantes de variance sont negligeables La composante de variance 
associee a Pinteraction JP ne compte que pour 1,89 % de la variance. Les composantes 
associees a Pinteraction SP et a la triple interaction SJP comptent pour 2 % el 0 % Dans 
le cas de la triple interaction, le resultat de 0 % n’est pas surprenant etant donne que 
nous n’avons pas introduit de tels effets de triple interaction dans notre modele. 

En resume, nous retrouvons dans Petude des composantes de variance les 
effets que nous avons introduits au depart Les plus importants sont ceux lies a la 
facette « juges », a la facette « sujets » et a Pinteraction «juges x sujets ». II faut 
maintenant tenir compte des contributions respectives de ces facettes a la variance 
vraie (de differenciation) et a la variance d’erreur (d’instrumentation). C’est ici que 
debute veritablement I’etude de generalisabilite. 


7.9 Etude G 

Le tableau 3.20 regroupe les composantes de variance calculees en fonction de notre 
projet de mesure et de la nature de I’erreur (relative ou absolue) que nous souhaitons 
controler. Pour faciliter I’illustration de ces deux composantes de la variance dans le 

Tableau 3.20 — Analyse de generalisabilite pour le plan de mesure de depart (S/JP) 


Source 

Variance 

de differenciation 

Source 

Variance 
d'erreur relative 

Variance 
d'erreur absolue 

S 

1,00341 






J 


0,57618 



SJ 

0,09453 

0,09453 



P 


0,09197 



SP 

0,01972 

0,01972 



JP 


0,00463 



SJP 


0,00000 

Total (variance) 

1,00341 


0,11426 

0,78704 

IliggMWI 




0,8872 

Coefficient 
de generalisabilite 
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tableau 3.18, nous avons inscrit la variance de differenciation dans I’espace blanc et 
la variance d’erreur dans I’espace gris. 

Comme notre projet de mesure consiste a dilferencier les plongeurs, la 
variance de differenciation sera constitute de la composante de variance des sujets. La 
variance d’instrumentation, lorsqu’il ne s’agit que de tenir compte de I’erreur relative 
de mesure, comprend toutes les composantes d’interaction impliquant la facette sujets 
avec les autres facettes : SJ, SP, SJP. Lorsqu’il s’agtt d’erreur absolue, s’ajoutent aux 
composantes d’erreur relative precedentes, toutes les composantes de variance alea- 
toire des autres facettes d’instrumentation : J, P et leur interaction JP. 


Pour representer le plan de mesure choisi, nous avons recours a la notation 
suivante : {D/1). Dans ce systeme de notation, D represente la ou les facette(s) de 
differenciation (a gauche de la bane oblique) et / represente la ou les facette(s) d’ins¬ 
trumentation (a droite de la bane oblique). Cette notation ne tient compte que des 
facettes et non de leurs interactions ou nichages. Dans le cas de notre exemple, nous 
ecrirons : (S/JP). 


Le coellicient de generalisabilite se calcule selon I’equation (3.61). Si I’on subs- 
titue les valeurs des variances de differenciation et d’instrumentation du tableau 3.20 
dans I’equation (3.61), nous retrouvons les valeurs des coefficients de generalisabilite 
relative et absolue p^. 


a; + or 

a: 


P» = 2 

a. + cr 


1,00341 

1,00341 + 0.11426 
1,00341 

1,00341 + 0,78704 


0,898 

0,560 


(3.62) 

(3.63) 


Ce dernier est denomme « index of dependability » et symbolise par) dans la litte- 
rature anglo-saxonne. Ces resultats indiquent que la fidelite des resultats est tout a 
fait acceptable lorsqu’il s’agit de classer les sujets. Un coefficient de generalisabilite 
relative de 0,898 indique une bonne fidelite. Par contre, lorsqu’il s’agit d’utiliser la 
valeur absolue des scores, la fidelite des resultats est moins satisfaisante (0,560). Si 



relative 


Figure 3.12 — Repartition des composantes de variance de la simulation 



L'etude de la generalisabilite 


155 


notre but premier etait de situer les plongeurs par rapport a tin seuil de reussite, nous 
aurions interct a diminuer I’erreur absolue des resultals. 

La figure 3.12 illustre sous la forme d’un graphique circulaire la repartition des 
composantes de variance pour le plan de mesure de notre exemple. On y voil com¬ 
ment les composantes de variance du tableau 3.18 se repartissent entre la variance 
de differentiation et la variance d’instrumentation. On y constate que la principale 
source d'erreur relative est due a la composante d’interaction SJ. Pour ameliorer le 
classement des sujets. nous devrions chercher a reduire cette composante. En ce qui 
concerne rerreur absolue, la majeure partie vient de la composante des juges. La 
facette « juges » compte pour beaucoup dans la variance totale et en reduisant cette 
composante. nous pourrions diminuer rerreur absolue. 

On trouve au tableau 3.20 les valeurs des variances d’erreur relative et absolue, 
et a la ligne suivante les ratines catrees de ces memes valeurs. Ces erreurs types repre- 
sentent les ecails types de la distribution des fluctuations d’echantillonnage affectant 
les scores univers. Connailre ces ecarts types nous permet d’etablir autour de cliaque 
score observe un intervalle de conliance de ±1,96 ecarts types, marge a l’interieur de 
laquelle on pent etre a peu pres certain que se situe le score univers ou valeur vraie 
techerchee. Par exemple, l’etude G effectuee sur le dispositif devaluation utilise pour 
les plongeurs nous permet d’affirmer que, pour un score observe de 6, le score vrai se 
situe entre 6±1.96 x ct 5 , soit entre 5,34 et 6,66 (6 ± (1,96 x 0,3380)) lorsqu’on ne s’in- 
teresse qu’au classement relatif des plongeurs. L’intervalle de conliance serail presque 
trois fois plus etendu s’il s’agissait de determiner la valeur absolue des performances 
de chaque plongeur. 

Le tableau 3.21 recapitule toutes les etapes de notre simulation de donnees. 
On y retrouve les composantes de variance correspondant aux effets que nous avons 
introduits, de meme que les valeurs calculees des coefficients de generalisabilite p 6 2 et 
et des erreurs types (o 6 et a d ). Dans la situation de depart. 100 % de la variance 
totale est due aux sujets. Les deux coefficients valent 1, car il n’y a ni erreur relative, 
ni erreur absolue : scores observes et scores univers correspondent parfaitement. En 
ajoutant des effets dus aux juges et aux plongeons, le classement des sujets demeure 
inchange, car nous n’avons pas encore introduit d’interactions entre ces facettes et la 
facette sujets. C’est pourquoi la valeur de p 6 2 demeure inchangee a 1. La valeur de p^ 2 
passe par contre de 1 a 0,603, car les plongeons, mais surtout les juges, interviennent 
dans la valeur absolue des scores des plongeurs. Puisque les juges different entre eux 


Tableau 3.21 — Resultats a differentes etapes de la simulation des donnees 


Simulation # 

Effets 

introduits 


Composantes de variance (%) 


Generalisabilites et erreurs 



s 

J 

SJ 

P 

SP 

JP 

SJP 

Ps 2 


Pa 2 


1 


100 


Q 

0 

0 

0 

0 





2 

J,P 

34 


Q 


0 

0 

0 

1,000 

0,000 



3 

iP 

35 

56 


8 

0 

1 

0 



s 


4 

SJ 

30 

53 



D 

a 

0 





5 

SP 

30 

51 

8 

8 

2 

i 

0 
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dans leur notation, (’appreciation des plongeurs depend en partie de ceux qui out ete 
choisis pour les evaluer. Trois juges ne constituent pas un tres grand echantillon sur- 
tout lorsque les differences entre leurs appreciations sont si importantes. 

L’introduction de I’interaction «juges x plongeons » ne change lien a la gene¬ 
ralisabilite d’erreur relative. Celle-ci demeure parl'aite, car cette interaction alfecte 
tous les sujets de la meme maniere. En ce qui concerne I'erreur absolue, cette inte¬ 
raction devrait normalement contribuer a reduire encore plus la generalisabilite d’er¬ 
reur absolue. Ce n’est pas ce qui s’est produit ici. L’interaction JP a reduit de fa?on 
importante la composante de variance P (de 14 % a 8 %), ce qui laisse un bilan positif 
en termes de composantes de variance d’erreur absolue. Nous sommes ici en presence 
d’un jeu contraire d’erreurs absolues. 

La quatrieme simulation introduit la composante d’interaction « sujets x 
juges ». Cette interaction change le classement des sujets et la generalisabilite d’er¬ 
reur relative est maintenant de 0,913 : les juges manquent de Constance entre eux 
dans leur appreciation des sujets. Cette erreur relative fait egalement partie de I’erreur 
absolue. C’est pourquoi le coeflicient d’erreur absolue est egalement reduit a 0,566. 

L’ajout, dans la cinquieme simulation, d’une autre composante d’interaction 
« sujets x plongeons » ne changera que ties peu les resultats de la quatrieme simula¬ 
tion. Ces derniers resultats sont ceux que nous avons presentes dans les tableaux 3.17 
et 3.18, ainsi que dans la figure 3.12. Cette interaction ne comptant que pour 1 % de 
la variance totale, elle change peu de clioses a la generalisabilite absolue ou relative. 
Les sujets se classent de la meme maniere par rapport aux trois plongeons et cette 
interaction n’intervient done que ties peu dans la fidelite des resultats. 

L’etude des composantes de variance pour le projet de mesure consistant a 
differencier les sujets nous a fourni quelques pistes quant aux meilleurs moyens 
d’ameliorer la generalisabilite des resultats de notre dispositif de mesure. Les ame¬ 
liorations a apporter devront contribuer a reduire I’erreur absolue de mesure due 
a la composante « juges » et a la composante d’interaction « sujets x juges ». Si 
seule I’erreur relative nous importe, alors il suffira de reduire la composante d’in¬ 
teraction « sujets x juges » seulement. C’est ce que nous verrons dans I’etude D 
ou phase d’optimisation. Mais voyons d’abord comment I’etude de generalisabilite 
nous permet d’aborder la fidelite des resultats en fonction de differents projets de 
mesure. 

7.10 Autres projets de mesure 

Dans l’exemple qui nous concerne, nous aurions pu chercher a differencier les juges 
ou les plongeons. Un juge est-il toujours aussi severe, peu importe les sujets ou les 
plongeons qu’il doit noter ? Les plongeons sont-ils de la meme difficult^ pour tous les 
sujets, peu importe le juge qui les note ? Voila autant de questions legitimes qui font 
intervenir d’autres plans de mesure. 

Supposons que nous souhaitions differencier les juges quant aux points qu’ils 
accordent. La variance occasionnee par la facette «juges » devient alors une facette 
de differenciation et les facettes « sujets » et « plongeons » deviennent facettes d’ins¬ 
trumentation. Si la facette « sujets » ou la facette « plongeons » interagit avec la 
facette « juges » nous avons autant de sources d’erreur relative. Enfin, si les plon¬ 
geons a evaluer sont particulierement difficiles ou les athletes particulierement bons. 
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Tableau 3.22 — Resultats de l'etude G pour le plan de mesure (J/SP) 


Source 

Variance 

de differentiation 

Source 

Variance d'erreur 
relative 

Variance d'erreur 
absolue 



S 


0,08362 

J 

1,72855 






SJ 

0,02363 

0,02363 



P 


0,09197 



SP 


0,00164 



if 

0,01388 

0,01388 



SJP 


1 

Total (variance) 

1,72855 


0,03752 

0,21474 

Ecarts types 



0,1937 

0,4634 

Coefficient de generalisabilite 



0,979 

0,889 


le nombre de points accordes par les juges risque de changer. Ces sources d’erreur 
absolue s’ajoutent aux sources d’erreur relative. 

Le tableau 3.22 presente le calcul de la generalisabilite pour ce nouveau plan 
de mesure ou il s’agit de trouver la generalisabilite des scores des juges et non celle 
des sujets. Les resultats de I’analyse de variance demeurent identiques a ceux du 
tableau 3 19 parce que les donnees sont les memes. Toutefois, en raison des clian- 
gements apportes a notre plan de mesure, les composantes de variance different de 
celles calculees au tableau 3.18 et sont reparties, comme nous venons de le decrire, 
entre la variance de diff erenciation et la variance d’instrumentation (erreur relative 
ou absolue). 

Les resultats du tableau 22 revelent de tres bons coefiicients de generalisabi¬ 
lite, que I’on prenne en ligne de compte I’erreur relative (0,979) ou I’erreur absolue 
(0,889). Dans le premier cas, nous sommes assures d’un ordre de severite ti es fidele 
des juges en ce qui concerne le nombre de points accordes. Le juge qui accorde le 
plus de points le fait de fagon constante, peu importe le plongeon ou le plongeur a 
noter. Enfin, la valeur absolue des points accordes par les juges est egalement ties 
lidele, peu importe le sujet evalue ou le plongeon. Les juges accordent done le meme 
nombre de points pour I’ensemble des 12 sujets. 

II y a done une difference importante entre la generalisabilite des scores des 
sujets et celle des scores des juges. Ceci n’est pas surprenant considerant que le score 
de chaque juge est calcule sur 12 sujets, alors que le score de chaque sujet n’est fonde 
que sur 1’appreciation de trois juges settlement. 
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7.11 Optimisation et etude D 

La phase d’optimisation permet d’ameliorer la generalisabilite des resultats en 
apportant des changements au plan d’observation, au plan d’estimation ou au plan 
de mesure. Cardinet, Johson & Pini (2010) distinguent quatre types d’etude D ou 
d’optimisation : 

1) Changer le nombre de niveaux de facettes echantillonnes 

a) AccroTtre le nombre de niveaux des facettes qui contribuent de maniere 
importante a I’erreur 

b) Diminuer ou supprimer les facettes qui out peu d'impact sur I’erreur de 
mesure 

2) Supprimer des niveaux atypiques de certaines facettes 

3) Changer le nombre de facettes ou leur nature (fixe ou aleatoire) 

a) Niclier des items a 1’interieur d’une nouvelle facette tixee 

b) Fixer une facette consideree comme aleatoire au depart 

4) Estimer les biais de la mesure 

Pour i 11 ustrer une etude d’optimisation, nous nous li mi tenons aux changements 
qu’il est possible d’apporter au plan d’observation en changeant le nombre de niveaux 
de facettes echantillonnes (condition 1), tout en reconnaissant que le travail d’optimi¬ 
sation ne s’arrete pas la necessairement. 

Les modeles classiques des scores, dont I’etude de la generalisabilite constitue 
un prolongement, nous out appris que la fidelite des scores s’accroit lorsque 1’on 
augmente le nombre des observations. Ce principe decoule des lois de I'estimation 
statistique : plus notre echantillon est grand, plus I'erreur d’estimation est petite. II en 
va de meme avec les dispositifs complexes d’observation. Plus une facette comporte 
de niveaux, plus la variance occasionnee par ccttc facette dans les resultats sera esli- 
mee correctement, car les erreurs aleatoires de mesure dues a I’echantillonnage des 
niveaux de facette ont tendance a s’annuler lorsque leur nombre devient ties grand. 

L’examen des resultats de I’etude G du plan de mesure initial (S/JP) nous a 
conduit aux observations suivantes : 


Tableau 3.23 — Etude d'optimisation de I'exemple (S/JP) 


Facettes 

Niveaux traites 

Univers 

1 

2 

3 

4 

5 

S 

12 


12 

12 

12 

12 

12 

J 

3 


3 

6 

24 

12 

12 

P 

3 


6 

3 

3 

6 

3 

Total 

108 


216 

216 

864 

864 

432 

Ps 

0,898 


0,906 

0,937 

0,970 

0,968 

0,959 

a* 



0,323 

0,259 

0,178 

0,183 

0,208 

Pi 

0,560 


0,579 

0,691 

0,837 

0,817 

0,782 

O.A 



0,854 

0,670 

0,443 
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a) pour reduire l’erreur absolue, nous devrions reduire la variance d’erreur 
occasionnee par les juges ; 

b) pour reduire I’erreur relative, nous devrions reduire la variance d’e;rreur 
causee par I’interaction « sujets x juges ». 

La phase d’optimisation nous permet, a partir de notre connaissance des com- 
posantes de variance des differentes facettes, d’estimer I’elfet d’un accroissement ou 
d’ane diminution du nombre de niveaux sur la generalisabilite des resultats. Cette 
procedure est analogue a la formule de Spearman-Brown, quoique beaucoup plus 
complexe (voir section 4.4 de ce chapitre). 

Le tableau 3.23 presente les resultats de l’etude d’optimisation de notre simu¬ 
lation. Ce tableau comprend, dans sa partie de gauche, les differentes facettes du 
plan d’observation, les niveaux traites et les tailles des populations ou univers echan- 
tillonnes. Toutes les facettes sont considerees comme ayant ete tirees au hasard d’une 
population de taille infinie. On y retrouve enfin le nombre total des observations (108 
= 12 x 3 x 3), les valeurs de generalisabilite absolue et relative. La partie de droite 
estime les valeurs de ces coefficients pour differents scenarios d’echantillonnage des 
facettes. 

Le premier scenario consiste a doubler le nombre de niveaux de la facette 
« plongeons ». En demandant a chaque plongeur de realiser 6 plongeons plutot que 
3 et en conservant le meme nombre de juges, on n’ameliore pas significativement la 
generalisabilite relative, ni la generalisabilite absolue, ainsi que les erreurs relatives 
et absolues. C’etait a prevoir, considerant la faible importance de la facette « plon¬ 
geons » dans la variance des resultats. 

Si nous devious doubler le nombre d'observations, il serait de loin preferable 
d’engager plus de juges. C’est ce que demontre le scenario 2. Chaque plongeur rea- 
liserait toujours trois plongeons, mais verrait sa performance notee par six juges au 
lieu de trois. Les resultats de l’etude d’optimisation indiquent qu’un accroissement du 
nombre de juges ameliore sensiblement la generalisabilite absolue, de meme que la 
generalisabilite relative, qui etait deja ties acceptable. Dans le scenario 2, tout comme 
dans le scenario I, le nombre d’observations a etedouble (de 108 a 216). Cette fois-ci 
I’impact sur la generalisabilite est sensible : la generalisabilite d’erreur absolue passe 
de 0,560 a 0,691. 

Les scenarios 3, 4 et 5 estiment les coefficients de generalisabilite qu’il serait 
possible d’obtenir en augmentant encore davantage le nombre de juges. Avec douze 
juges, les coefficients de generalisabilite relative et absolue laissent entrevoir une fide- 
lite acceptable des resultats. En education et en psychologie, il est parfois couteux 
et difficile de compter sur la collaboration d’un aussi grand nombre de personnes 
competentes. 

Souvent, pour faire face a ce probleme, on mettra l’accent sur la formation des 
juges. En preparant les juges a utiliser de faqon rigoureuse des instruments de nota¬ 
tion et en etablissant des consensus quant a 1*interpretation a donner aux differents 
criteres de correction, on diminue grandement l’erreur de mesure et on contribue a 
ameliorer les resultats. Enfin, pour que la tache soit egalement repartie, on preferera 
assigner la moitie des sujets a un groupe de 12 juges et Fautre moitie a un autre 
groupe de 1 2 juges, plutot que de demander a 24 juges d’evaluer tous les sujets. En 
emboitant ainsi la correction de certains sujets dans un groupe de juges, on diminue 
la quantite de travaux a noter pour chaque juge tout en profitant des benefices lies a 
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mi nombre eleve de juges. Lorsque les deux groupes de juges ne different pas sen- 
siblement entre eux, ce changement du plan d'observation peut constituer une autre 
fa^on d’optimiser la mesure. 


7.12 Generalisabilite et normes de pratique 

EN PSYCHOLOGIE ET EN EDUCATION 

A bien des egards, lcs developpements recents de la theorie de la generalisabilite 
repondent a la pression croissante que les normes de pratique dans le domaine de 
la psychology et de l’education exercent sur les utilisateurs et concepteurs de tests 
alin que les resultats sur lesquels se fonde leur jugement soient precis et assures. On 
retrouve plusieurs mentions concernant l’importance de la theorie de la generalisabi¬ 
lite dans ces normes, notamment au standard 2.10 : 

Dans la mesure clu possible, on devrait evaluer les variances cl ’erreur asso- 
ciees a cliacune des sources. Les analyses de generalisabilite et de compo- 
santes de la variance sont particidierement utiles a cet egard. Ces analyses 
peuvent foil mi r des estimations distinctes de la variance d'erreur pour des 
tdches intra-indivickielles, pour les juges et pour les situations a I’interieur de 
la periode de stabilite du trait. (Ordre des conseillers et conseilleres d’orienta- 
tion et des psychoeducateurs et psychoeducatrices du Quebec (2003), Normes 
de pratique du testing en psychologie et en education, p. 37) 

Pour les chercheurs, I’interet de I’etude de la generalisabilite ne s’arrete pas 
la. En effet, Cardinet, Johnson et Pini (2010) demontrent le lien qu’il est possible 
d'etablir entre le coefficient de generalisabilite et une mesure de l’effet experimental 
telle que or Un tel procede est en droite ligne avec l’line des recommandations des 
editeurs de periodiques scientifiques qui considered que l'absence de mention des 
effets experimentaux constitue une lacune importante tant dans la conception de la 
recherche que dans la communication des resultats (American Psychological Associa¬ 
tion (APA), 2001 ; p. 5 et p. 25). 

Enlin, l'etude G permet le calcul d’intervalles de conliance utilisant les erreurs 
relative et absolue de mesure (section 7). Selon le manuel de publication de 1’APA, 
cette faqon de rapporter les resultats figure parmi les meilleures parce que « les inter- 
valles de conliance combinent 1’information sur la position et la precision et peuvent 
frequemment etre employes pour inferer des niveaux de signification » (notre traduc¬ 
tion ; American Psychological Association, 2005, p. 22). 

8. Conclusion 

La fidelite des resultats est au coeur de nos preoccupations en mesure. Sans fide¬ 
lite, les resultats ne peuvent etre ni pertinents, ni utiles : la route conduisant a la 
validite des resultats est coupee. Pourtant, cette qualite essentielle est souvent prise 
pour acquise ou mal comprise. Justifier I’emploi repete d’un instrument de mesure a 
partir des seules donnees sur la coherence interne des items n’est pas plus approprie 
que d’utiliser un tournevis pour enfoncer un clou. II est crucial que l’utilisateur et le 
constructed de tests comprennent bien la nature des evidences fournies par les etudes 
de fidelite afin de pouvoir les utiliser au bon moment. 
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La theorie classique des scores a su s’adapter et evoluer pour repondre a des 
besoins varies. Lorsque I’echantillon de sujets est nrodeste, elle demeure la methode 
de choix. Grace aux modeles neoclassiques, il est maintenant possible de calculer des 
erreurs de mesure diff'erentes pour chaque score. Avec la theorie de la gene'ralisabilite, 
il est possible d’envisager la fidelite dans des situations complexes d’observation et 
pour differents projets de mesure. 

Lorsque les echantillons d’items et de sujets sont eleves, les modeles de 
reponse cnix items (chapitre 7) peuvent mieux repondre aux besoins des specialistes, 
qu’il s’agisse de calibrer des banques d’items ou de realiser des operations de testing 
a grande echelle. La multiplication des outils rend encore plus delicat le travail du 
concepteur et de l’utilisateur de tests. C’est pourquoi il est necessaire d’approfbndir 
les caracteristiques particulieres de chaque modele d’analyse de la fidelite. 11 n’y a 
pas de modeles paifaits : il n’y a que des modeles qui rendent compte, plus ou moins 
bien et plus ou moins utilement, de la nature de nos donnees. 




CHAPITRE 4 


LA VAUDITE DES RESULTATS A UN TEST 


1. Le concept de validite 

Ces cinquante dernieres annees, le concept de validite et les methodes de valida¬ 
tion out profondement evolue. Toutefois, Angoff (1988, p. 19) souligne, a juste titre, 
que si le concept a change, I’importance que lui accordent les psychometriciens est, 
quant a elle, restee constante : « En psychometric, la validite a ton jours ete conside- 
ree coniine le concept le plus fondamental et le plus important ». Pour les concepteurs 
comme pour les pratieiens, I’essentiel est en effet d’etre assure de mesurer ce qu’ils 
veulent mesurer, et uniquement cela. La precision de la mesure est ceiles importante, 
mais elle est inutile si le test n’evalue pas, ou evalue mal, le phenomene vise par ses 
concepteurs. Par consequent, avant de diffuser un test, les constructeurs out le devoir 
de presenter des preuves suffisantes que leur instrument mesure bien ce qu’il pretend 
mesurer. Comme nous allons le voir en detail dans ce chapitre, ce travail de recueil 
de preuves est un processus long et complexe, toujours inacheve. 

Au debut des annees 1950 (Angoff, 1988), la validite etait envisagee de 
maniere relativement morcelee. Ainsi, les Technical Recommandations de l'American 
Psychological Association (1954) se limitaient a codifier des types de validite (de 
contenu, predictive, concomitante et conceptuelle). La meme annee, dans la l rc edi¬ 
tion de son ouvrage de reference Psychological Testing , Anastasi presentait comme 
bien distinctes la validite apparente, la validite de contenu, la validite factorielle et la 
validite empirique. II faut attendre les annees 1970 pour qu’un effort important soit 
realise clans le sens d’une integration des differents types de validite. 

Cet effort est manifeste clans les Standards for Educational and Psychological 
Testing publies conjointement par 1’ American Educational Research Association et 
1’ American Psychological Association en 1985. Dans le chapitre qui lui est consacre 
(pp 9-18), la validite est presentee comme « un concept unitaire » se rapportant non 
au test lui-meme, mais aux inferences faites a partir des resultats a celui-ci. Dans 
cette perspective, les auteurs soulignent qu’il est incorrect de parler de la validite d’un 
test en general. Seules sont valides les inferences en faveur desquelles suffisamment 
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d'arguments et de donnees empiriques ont pu eli e rassenibles. Nous ne pouvons done 
pas affirmcr, par exemplc. qu’im questionnaire evaluant l'anxiete est valide en gene¬ 
ral. Nous pouvons uniquement nous prononcer a propos de la validite de diverses 
inferences faites a partir des scores a ce questionnaire comme, par exemple, la discri¬ 
mination de differents degres d’anxiete, la prediction de l’integration dans le milieu 
professionnel en fonction du degre d’anxiete, P evaluation de l'efficacite d’un traite- 
ment de l’anxiete, etc. 

Malgre la volonle evidente d’unification du concept de validite dans la version 
des Standards for Educational and Psychological Testing publiee en 1985, ce travail 
reste encore inabouti. Les auteurs y distinguenl trois grandes categories de preuves de 
validite d’un test selon la reference consideree : le contenu du test, les criteres externes 
ou le modele/concept (« construct » en anglais) sur la base duquel le test a ete construil. 
Ces categories de preuves apparaissent juxtaposees, sans principe integraleur solide. 
Dans les annees qui suivent la publication des Standards. Messick (1988, 1989, 1995) 
va jouer un role important en defendant avec force la necessite d’integrer l’ensemble 
des preuves de validite sur la base d’une notion unilicatrice. Les efforts de Messick 
seronl couionnes de succes puisque ses travaux seront a la base de la revision du cha- 
pitre sur la validite de la nouvelle version des Standards for Educational and Psycho¬ 
logical Testing publiee en 1999 (1) . Pour Messick, la notion de base est celle de cadre 
conceptual (« construct»). Lorsque nous developpons un instrument de mesure, nous 
partons necessairement d’un cadre conceptuel, c’esl-a-dire d’une definition des notions 
et d’un modele de ce que nous souhaitons mesurer. Nous ne visons pas un phenomene 
indifferencie, mais une representation bien specilique de ce phenomene. Par exemple, 
si nous voulons evaluer la competence en lecture d’un eleve, nous devons d’abord defi- 
nir ce que nous appelons « competence », « lecture » et « competence en lecture ». II 
nous faut preciser les caracleristiques essentielles de la competence en lecture qui nous 
permettront de 1’identifier. C’est sur la base de ce cadre conceptuel que nous pourrons 
ensuite conslruire un lest de lecture. D’autres auteurs, ayant une autre conception de la 
competence en lecture ct done un autre cadre conceptuel, developperonl necessairement 
un autre type de lest. Par consequent, lorsque l’on evalue la validite des inferences faites 
a partir des scores a un test, il est fondamental de se referer au cadre conceptuel sur la 
base duquel le test ayant servi a recolter ces scores a ete construit. Cette reference est 
incontournable, quelle que soil la variable visee : la motivation, la memoire, l’anxiete, 
I’orthographe, la depression... C’esl par rapport au cadre conceptuel que les preuves de 
validite seronl selectionnees et prendront leur valeur. 

La version de 1999 des Standards for Educational and Psychological Testing 
souligne que, logiquement, le point de depart de la procedure de validation est une 
definition detaillee du cadre conceptuel du lest. Quel concept le lest vise-t-il et en 
quoi ce concept se distingue-t-il de concepts voisins ? Le cadre conceptuel est, pour 
une part, defini par 1’usage prevu des scores au test. Par exemple, un test de mathe- 
matiques peut etre construit pour selectionner des etudiants dans un programme de 
mathematiques avancees ou pour identifier des lacunes d’apprenlissage et mettre en 
place des actions de remediation. Selon le but choisi, le test de mathematiques sera 
construit tres differemment et les scores qu’il permettra de recolter seront interpretes 
d’une lout autre maniere. 


'"Une traduction francaise de cette version des Standards a ete realisee sous la direction de Georges 
Sarrazin en 2003. Voir dans References. 
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Partant du cadre concepluel, il est possible d’identifier les preuves de validite 
qui devraient etre rassemblees. II ne s’agit pas d’une liste exhaustive, car il est tou- 
jours possible d’imaginer de nouvelles inferences pouvanl etre faites sur la base des 
scores et necessitant de nouvelles preuves. Par exemple, des preuves de validite peu- 
vent avoir ete rassemblees a propos de la sensibilite d'un questionnaire de depression 
a (’amelioration de I’humeur chez des adultes depressifs. Mais qu’en est-il chez des 
adolescents depressifs ? Les preuves recoltees chez les adultes ne soul pas suffisantes 
et il sera necessaire de verifier que le questionnaire est egalement sensible aux varia¬ 
tions de rhumeur chez les adolescents depressifs. 

Recolter des preuves de validite consiste d’abord a generer des hypotheses 
qui seront ensuite mises a I’epreuve des faits. II est egalement important d’envisager 
des hypotheses susceptibles de mettle en question la validite de nos inferences. Par 
exemple, a un test de problemes arithmetiques, il sera utile de verifier si la lecture 
des enonces ne joue pas un role trop important dans la reussite des items. Si cetait 
le cas, nous devrions considerer que le test est plus line epreuve de lecture que de 
resolution de probleme. Dans cet exemple, line variable qui ne fait pas partie du 
cadre conceptuel initial vient introduire line source de variation non pertinente dans 
les resultats Une autre situation problematique est celle ou le test n’offre pas line 
representation suffisamment complete du cadre conceptuel. Par exemple, un question¬ 
naire de depression, destine a reperer les troubles depressifs chez les personnes agees, 
souleverait des problemes de validite s’il ne comptait que des questions relatives aux 
problemes alimentaires et n’abordait pas les problemes du sommeil. Dans un tel cas, 
il serait susceptible de nc pas evaluer correctement la gravite des troubles depressifs 
chez les personnes agees. 

Les Standards for Educational and Psychological Testing (1999) constituent 
aujourd’hui une reference incontournable tant pour les concepteurs que pour les uti- 
lisateurs de tests. La validation est en effet de la responsabilite des uns comme des 
autres. Les utilisateurs ne peuvent en effet s'appuyer uniquement sur les etudes de 
validite realisees par les concepteurs et les chercheurs. Ils out la responsabilite de 
verifier, dans le cadre de leur application des tests, si leurs interpretations des scores 
possedent une validite suflisante. Meme si de nombreuses preuves de validite ont ete 
rassemblees par les chercheurs a propos des resultats d’un test donne, la passation de 
ce test peut avoir ete realisee dans de mauvaises conditions qui mettent en question 


Tableau 4.1 — Synthese des differents types de preuves de validite 


Types de preuves, basees sur... 

Caracteristiques 

Le contenu 

Evaluation formalisee par des experts de (ensemble des caracteristiques 
des items en reference a ce que le test pretend mesttrer 

Les processus de reponse 

Evaluation de (adequation entre les caracteristiques visees par le test 
et de cedes qui sont effectivement mises en oeuvre par les repondants 

La structure interne 

Evaluation du degre de relation entre les items et les composantes 
du test definies par le modele de reference 

Les relations avec d'autres variables 

Evaluation du degre de liaison des scores ou test avec d'autres mesures 
externes au test 

Les consequences du testing 

Evaluation des consequences non souhaitees de (application du test 
et de (utilisation des scores 
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toute utilisation valide des scores. C’est de la responsabilite du praticien d’identifier 
I’impact de ces manvaises conditions de passation sur les scores et, le cas echeant, 
de conclure qu’il n’est pas possible de fonnuler des inferences valides sur la base de 
ces scores. 

Les preuves de validite sont variees. Dans les Standards for Educational and 
Psychological Testing (1999), elles sont rassemblees en cinq categories presentees de 
maniere synthetique dans le tableau 4.1. 

1.1 Les preuves basees sur le contenu du test 

Elies proviennent de l’avis d’experts charges d’evaluer dans quelle mesure les items 
d’un test sont representatifs du concept ou du domaine vise. Par exemple, les experts 
seront invites a apprecier si les items d’un test de definition de mots sont bien des 
termes appartenant au domaine du franqais courant. Ou encore, ils evalueront si les 
items d’un questionnaire de depression representent bien les differentes facettes du 
concept de depression defini par les auteurs de ce questionnaire. Les preuves de vali¬ 
dite basees sur le contenu ne concernent pas uniquement la formulation des items, 
mais aussi leur format et les consignes de passation et de cotation (voir section 2 
de ce chapitre). Cette modalite de validation des tests est, pour une part, subjective. 
Toutefois, si elle respecte une methodologie rigoureuse, elle permet d’airiver a des 
conclusions solides qui pourront trouver confirmation dans des recherches empiriques 
ulterieures. 

La validation sur la base du contenu ne doit pas etre confondue avec la validite 
apparente (face validity). Celle-ci ne se base que sur une evaluation de surface des 
items. Les juges charges de revaluation ne sont pas des experts du domaine et n’uti- 
lisent pas de methodologie particuliere pour effectuer leur travail. Ils se contentent de 
verifier si les items ont Fair de mesurer ce qu’ils pretendent mesurer. Malgre le carac- 
tere superficiel et peu rigoureux de la validation basee sur les apparences, Anastasi 
(1982, p 136) considere qu’elle peut etre utile pour mettre au point des instruments 
destines a un large public (par exemple, des tests d’admission) Elle permet en effet 
de creer des tests plus credibles et mieux acceptes par les utilisateurs, car leur contenu 
apparait plus legitime a ces derniers. 

1.2 Les preuves basees sur les processus de reponse 

II s’agit ici de verifier si les demarches mises en oeuvre par les sujets pour produire 
leurs reponses correspondent bien a ce qui est prevu dans le cadre conceptuel qui 
sous-tend le test. Dans ce cas, la recolle des preuves implique une analyse detaillee 
des reponses individuelles. Cette recolte peut s’appuyer sur un entretien avec les 
sujets a propos de la demarche suivie pour arriver a la reponse finale. Elle peut aussi 
faire appel a des enregistrements video, a des mesures de temps de reponse et a 
d’autres techniques permettant d’objectiver la demarche suivie par les sujets pour 
produire leurs reponses. 

Par exemple, en mesuranl le temps de reponse, il est possible de determiner si 
un enfant a trouve la solution a un probleme arithmetique en calculant ou en retrou- 
vant la reponse correcte dans sa memoire a long terme. Cette information peut etre 
une preuve de validite interessante si le but du test est d’evaluer la capacite a effectuer 
des calculs arithmetiques S’il apparait qu’a plusieurs items les reponses sont fournies 
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trop rapidement pour que le sujet ait eu le temps de calculer, on pourra affirmer que 
les sujets recuperent simplement I’information stockee en memoire. La validite de ces 
items comme mesures de la maitrise des procedures de calcul mental pourra des lors 
etre mise en question. Un autre exemple est l’etude de I'impact de l’informatisation 
d’un test. Dans ce cas, la question est de savoir si le changement de format affecte, et 
dans quelle mesure, la nature de ce qui est mesure. Dans ce but, il s’agira de compa¬ 
rer les procedures suivies par les sujets pour resoudre les items dans le format clas- 
sique (p.ex. la manipulation de cubes pour reproduire des dessins) et dans le format 
informatique (p.ex. I’usage de la souris pour deplacer des formes sur I’ecran afin de 
reproduire des dessins). 

Une derniere illustration de cette categorie de preuves est celle de I’etude 
de la conformite des reponses au regard du modele theorique qui sous-tend lc test. 
Par exemple, le modele de la lecture propose par Coltheart et al. (2001) distingue 
deux procedures intervenant dans la lecture de mots. L’une intervient lorsque le lec- 
teur decode des mots reguliers rencontres pour la premiere fois, l’autre fonctionne 
lorsque le lecteur doit lire des mots irreguliers (p.ex. «femme » ou « monsieur »). Si 
le sujet parvient a lire coirectement les mots de la premiere categorie, mais echoue a 
lire ceux de la seconde categoric, ce phenomene peut etre interprets a la lumiere du 
modele theorique : une des procedures de lecture de mots n’est pas operationnelle. 
Pour valider un test de lecture de mots qui s’appuie sur un tel modele theorique, il 
est necessaire de verifier si les scores au test se conforment aux exigences du modele. 
Ainsi, les mots reguliers devront etre, en majorite, lus coi rectement ou incoiTectement 
puisque, selon le modele, ils font tous appel a une meme procedure, laquelle est ou 
n’est pas fonctionnelle. Si la lecture des mots reguliers est erratique, il faudra alors 
s’interroger sur la validite des items : pourquoi certains de ceux-ci ne semblent-ils pas 
mettle en ceuvre les procedures visees ? 

1.3 Les preuves basees sur la structure interne du test 

L’evaluation de la structure interne consiste a verifier que les relations entre les 
items et entre les composantes du test sont conformes a ce que prevoit le modele 
de reference. La situation la plus simple est celle ou nous postulons I’unidimen- 
sionnalite de la realite mesuree. C’est, par exemple, le cas d’un questionnaire 
mesurant l’anxiete. Nous pouvons postuler que I’anxiete est un trait latent, ayant la 
forme d’un continuum allant de I’absence d’anxiete jusqu’a l’anxiete aigue. Nous 
devrions done nous attendre a observer, d’une part, un degre eleve d’homogeneite 
des items et, d’autre part, un facteur commun expliquant la plus grande partie de la 
variance des scores. 

Dans d’autres cas, la structure du test est basee sur un modele plus complexe 
qui motive le calcul de plusieurs scores composites et d’un score global pour I’en- 
semble du test. Les echelles d’intelligence de Wechsler sont une belle illustration 
d’une telle structure complexe. Ces echelles permettent d’evaluer quatre composantes 
de l’intelligence (raisonnement verbal, raisonnement visuo-spatial, memoire de tra¬ 
vail et vitesse de traitement). Chacune de ces composantes est mesuree par deux 
ou trois epreuves. De plus, l’ensemble des epreuves permet d’obtenir une mesure 
globale de I’intelligence. II s’agit ici de verifier que les relations entre les epreuves 
sont bien conformes au modele theorique et qu’elles justifient le calcul des differents 
scores composites. L’analyse factorielle et les modeles structuraux d’equations sont 
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les techniques statistiques les plus souvent utilisees pour effectuer cette verification 
de rajustemenl entre les donnees obtenues avec le test et le rnodele theorique. Si cet 
ajustement est satisfaisant, il represented une preuve importante de la validite de la 
structure interne du test. 

La section 4.1 fournit un autre exemple d’etude de preuves basee sur la struc¬ 
ture interne du test au moyen de 1’analyse du caractere hierarchique (scalogramme de 
Guttman) des items d’une echelle correspondant a Pordre invariant de la progression 
des difficultes des differents stades piagetiens. 

1.4 Les preuves basees sur les relations 

AVEC D'AUTRES VARIABLES 

La procedure de recolte de preuves repose ici sur I’examen des correlations entre les 
scores au test et d’autres mesures, externes au test, prises comme criteres. Ces criteres 
peuvent etre les scores a d’autres tests mesurant un meme concept, mais aussi les 
resultats d’examens, les jugements d’experts, le classement dans des categories, etc. 

Souvent, les criteres sont des mesures d’une realite siniilaire a celle visee par 
le test. On parle alors de preuves de convergence. Par exemple, des cliniciens peu¬ 
vent etre invites a evaluer le degre de depression d’un groupe de patients a I’aide 
d’une grille d’observation ; leurs evaluations sont ensuite comparees aux reponses 
des memes patients a un questionnaire de depression. Si la correlation entre les deux 
series de mesures est elevee, cela constituera une preuve de validite des resultats 
au questionnaire. II est egalement interessant de comparer les scores au test a des 
mesures d’un concept different, mais voisin. Le but est alors de verifier que le test 
mesure specifiquement la variance associee au concept vise et non la variance de 
caracteristiques proches, mais non pertinentes. Dans ce cas, on parle de preuves de 
discrimination. Par exemple, on fera passer aux memes patients un questionnaire de 
depression et un questionnaire d’anxiete afin de verifier que le premier questionnaire 
procure des mesures specifiques de la depression. Si la correlation entre les deux 
questionnaires est faible, ce sera un argument de plus demontrant que les scores au 
questionnaire distinguent bien la depression des traits psychologies voisins. 

Les preuves de validite peuvent etre obtenues de deux manieres : soit les deux 
series de mesures sont recollees siinultanement, soit les mesures au test servent a predire 
des resultats qui seront obtenus ulterieurement. Dans le premier cas, on parle d’une etude 
de validite concomitante et, dans le second cas, d’une etude de validite predictive. Le 
premier type d’etude est illustre par les deux exemples presentes dans le paragraphe pre¬ 
cedent. Un exemple d’etude predictive peut etre foumi par I’evaluation de la qualite des 
predictions faites sur la base des scores a un test d’admission a un programme d’etudes. 
Dans ce cas, on comparera les scores au test avec les resultats obtenus par les etudiants a 
Tissue du programme. Si la correlation entre les deux ensembles de resultats est elevee, 
cela constituera une preuve importante de validite des scores au test d’admission. 

Les preuves de validite basees sur les relations avec d’autres variables soulevent 
la question de leur generalisation Si, par exemple, un questionnaire de personnalite 
se revele etre un bon predicteur de la reussite du metier de vendeur, peut-on affirmer, 
dans la meme foulee, que ce questionnaire est un bon predicteur de la reussite dans 
tous les metiers ? Certainement pas ! Nous devrions normalement recolter des preuves 
de la validite predictive des scores a ce questionnaire a propos de tous les metiers pour 
la selection desquels ce questionnaire est utilise. II s’agit d’un travail considerable et 
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quasi irrealisable. Les meta-analyses permettent, si certaines conditions soul reunies, 
une generalisation cles preuves de valiclite reunies dans un nombre limite d’etudes a un 
ensemble plus large de situations (voir par exemple, Schmidt & Hunter, 1998). 

1.5 Les preuves basees sur les consequences du testing 

Messick (1988) a joue un grand role dans la promotion de cette categorie de preuves 
en soulignant que le concept traditionnel de validite ne prenait pas en compte les 
consequences de 1’usage des tests. II fait remarquer que l’attenlion des chercheurs 
s’est avant tout focalisee sur la signification des scores et fait valoir que la question de 
Tutilite et de (’adequation des scores aux buts poursuivis par le testing a ete negligee. 
Or la finalite des scores est de servir de base a Taction et leur valeur ultiine provient 
de leur impact individuel et social. Par consequent, il est essentiel que les chercheurs 
et les praticiens se preoccupent de la valiclite du point cle vue des consequences de 
(’application des tests. 

Les preuves de validite basees sur les consequences concernent les implica¬ 
tions souhaitees et non souhaitees de Tusage des tests. Ceux-ci remplissent-ils bien la 
fonction pour laquelle ils ont ete crees ? N’entrainent-ils pas des effets indesirables ? 
Cette derniere question est souvent passee sous silence. Pourtant, il est frequent que 
des tests aient des consequences non souhaitees, parfois plus importantes que les 
resultats recherches. Par exemple, Tusage d’un format d’item a choix multiples peut 
ameliorer la precision de la mesure des connaissances el ainsi concourir a ameliorer 
la validite d'un test d’acquis scolaires. Toutefois, ce formal d’item peut avoir des 
effets secondaires non desires. Af in que leurs eleves obtiennent de meilleurs scores a 
ce test, les enseignants peuvent en effet axer leur enseignement sur la memorisation 
au detriment de la creativite et de la synthese. Dans un tel cas, la validite du test 
pose probleme. Un autre exemple est celui d’un test de selection biaise en defaveur 
des femmes. L’usage de ce test risque d’entrainer Telimination d’une plus grande 
proportion de femmes que d’hommes a Tissue d’une procedure de selection. A nou¬ 
veau, nous sommes en presence d’un instrument dont la validite de consequence est 
problematique. 

Messick (1988) souligne que Tevaluation des preuves de validite basees sur 
les consequences du testing doit se faire en reference au modele theorique qui sous- 
tend le test. Ce modele fournit le fondement qui perrnet de formuler des hypotheses 
a propos des resultats attendus au test et d’anticiper les possibles consequences non 
souhaitees de son application. Il est en effet necessaire, non seulement de reperer les 
consequences negatives effectives de l’usage des tests, mais aussi d’en prevenir les 
effets negalifs potentiels. 

Devaluation des preuves de validite basees sur les consequences n’est pas 
uniquement de la responsabilite des constructeurs de tests. Les utilisateurs de tests 
en sont egalement responsables. La validite des scores d’un test peut en effet varier 
considerablement d’un contexte d’applicalion a l’autre. Vu la grande diversite de ces 
contextes, seul Tutilisatcur est a meme d’apprecier Timpact de divers facteurs sur la 
validite des scores recoltes. Comrne le souligne Angoff (1988, p 24), « la personae 
cpii realise le testing et celle cpii utilise les scores ont la responsabilite cle fournir cles 
preuves cle la valiclite du testing ». Par exemple, Texamen de la memoire d’un enfant 
anxieux et agile peut etre perturbe au point de rendre les resultats de cet examen 
non valides. Le psychologue qui a realise cet examen a la responsabilite d'apprecier 
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I’impact des facteurs defavorables sur les resultats du sujet et, eventuellement, de 
decider d’invalider ceux-ci. Cette derniere decision doit se f'aire au regard des pos¬ 
sibles consequences negatives de (’utilisation de scores (p.ex. un traitement ou une 
orientation inappropriee) 

Au cours des annees 1990, les preuves de validite basees sur les consequences 
out fait l’objet d’un interet grandissant. L’importance a accorder a ces preuves ne 
fait toutefois pas I’unanimite parmi les chercheurs et les praticiens, et le debat sur 
cette question est parfois vif. En particulier, certains concepteurs de test considered 
que la plupart des consequences indesrrables de I’usage des tests ne sont pas de leur 
ressort. Ainsi, Reckase (1997a) fait remarquer qu’il n’est pas possible d’evaluer les 
consequences d’un nouveau test tant que celui-ci n’a pas ete utilise durant un certain 
temps. Ce meme auteur fait part de son scepticisme a l’egard de la possibility d’an- 
ticiper ceftaines consequences. Au mieux, le constructeur de test peut-il etre sensible 
a cette question et encourager les praticiens a un usage responsable des instruments 
psychometriques. Vu les difficultes pratiques posees par revaluation des preuves de 
validite basees sur les consequences, Reckase va jusqu’a mettre en question la per¬ 
tinence de Einteret porte aux consequences du testing. II suggere, avec une certaine 
ironie, que les incidences de I’interet porte aux consequences soient evaluees avant 
que ce type de preuves soit systematiquement pris en compte. Tous les constructeurs 
de tests ne sont pas aussi severes a I’egard de l’interet porte aux consequences du 
testing. Green (1997) admet que les editeurs de tests ne peuvent eluder leur respon- 
sabilite a l’egard des consequences de (’utilisation des instruments qu’ils produisent. 
II souligne toutefois la difficulty de la tache compte tenu de la diversity des utilisa- 
teurs et des contextes duplication. II suggere de mettre en place une cooperation a 
grande echelle afin de tenter de generaliser des resultats recueillis dans des contextes 
particuliers. 

Malgre les reactions contrastees a l’egard des preuves de validite basees sur 
les consequences du testing, cclles-ci ne peuvent etre ecartees d’un revers de la main. 
La question des consequences de I’usage des tests est analogue a celle soulevee a 
propos des medicaments. Lots des etudes cliniques, les chercheurs ne se limitent pas 
aevaluer l’elfet therapeutique d’un medicament. Ils pretent aussi une grande attention 
a ses effets secondaires. Certains medicaments, qui ont d’evidents effets therapeu- 
tiques, peuvent etre ecartes de la commercialisation a cause d’elfets secondaires trop 
importants. L’evaluation des effets secondaires des medicaments et de leur impact sur 
la qualite de vie des patients demande beaucoup de temps et d’energie. Pourtant, les 
citoyens admettent generalement que cette procedure de controle est indispensable. 
Ils seraient choques si elle n’avait pas lieu Pourquoi n’en irait-il pas de meme lors 
du developpement des tests dont les consequences sur la vie des personnes evaluees 
peuvent etre considerables ? 

Dans la suite de ce chapitre, nous allons examiner de maniere plus appro- 
fondie trois des categories de preuves decrites ci-dessus : les preuves basees sur le 
contenu, celles basees sur la structure interne du test et celles basees sur les relations 
avec d’autres variables. 
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2. Preuves de validite basees 
sur le contenu du test 

Rassembler des preuves de validite sur la base du contenu d’un test consiste a 
apprecier dans quelle mesure les differentes composantes de ce test permettent une 
evaluation correcte du concept vise. Le terme « composcmte » est utilise a dessein. 
Trop souvent, les preuves basees sur le contenu se focalisent sur les seuls items. 
Cette composante est essentielle, mais ne constitue pas la totalite des preuves de 
la validite de contenu des resultats a un test. II est egalement necessaire d’evaluer 
les instructions donnees aux sujets, les modalites de presentation des stimuli (p.ex. 
presentation papier/crayon ou sur ecran), les contraintes de temps, les modalites de 
reponse (p.ex. reponses ecrites ouvertes ou choix d’images) et les criteres de cota- 
tion. Toutes ces composantes du test contribuent a une mesure valide du concept 
vise. Mais elles peuvent aussi etre la source de biais importants qui affecteront la 
qualite des mesures realisees a I’aide du test considere. Imaginons, par exemple, 
un test destine a Revaluation des troubles de la memoire des personnes agees, dont 
les items sont presentes sur un ecran d’ordinateur en temps limite. La recolte des 
preuves de validite inclura, bien entendu, une evaluation de I’adequation du contenu 
des items. Mais elle demandera aussi une evaluation (1) des consignes donnees ver- 
balement par le psychologue et par ecrit via I’ecran, (2) des modalites de presen¬ 
tation des stimuli sur ecran, (3) des modalites de reponse a I’aide de la souris et 
du clavier, (4) des limites du temps de reponse, (5) du systeme de cotation dicho- 
tomique « reussite-ecliec ». Toutes ces composantes du test concourent-elles a une 
evaluation correcte des troubles de la memoire tels que definis dans le cadre concep- 
tuel initial ? Des variables parasites n’influencent-elles pas indument les resultats ? 
Une reponse precise a ces questions est essentielle pour garantir la validite des infe¬ 
rences basees sur les scores a ce test. 

Comme nous I’avons souligne plus haut, toute recolte de preuves de validite 
basees sur le contenu doit debuter par une definition precise du concept vise par le 
test. La pertinence des preuves depend etroitement de la precision avec laquelle le 
concept a ete delini et de l’accord des experts a propos de ses facettes. Le terme 
« facette » peut designer, selon le concept vise, des categories de comportement (p.ex. 
les divers types de comportements caracteristiques de l’obsession), les composantes 
d’une competence cognitive (p.ex. les divers traitements intervenant dans le decodage 
de mots), les capacites intervenant dans une activite professionnelle (p.ex. les capaci- 
tes necessaires au travail de secretaire), un ensemble d’objectifs pedagogiques coor- 
donnes (p.ex. les objectifs en mathematiques en fin de scolarite primaire). Un concept 
defini de maniere trop fioue ne permettra jamais de formuler des inferences valides 
sur la base des resultats obtenus avec I’instrument cree pour le mesurer. 

Prenons l’exemple de la creation d’un questionnaire destine a diagnostiquer 
les personnalites schizo'ides. Le DSM-IV (APA, 1994, pp. 638-641) presente une 
definition du concept de « personnel!ite schizoide » qui est le fruit d’un large consen¬ 
sus entre les cliniciens. A ce titre, cette definition constitue une base solide pour la 
construction du questionnaire. Selon le DSM-IV, les criteres permettant de diagnosti¬ 
quer une personnalite schizoide sont : 

A. Mode general d’indifference aux relations sociales et restriction du registre 

d’expression des emotions en situation interpersonnelle, appciraissant au 
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debut de I’age adulte et present dans divers contextes, coniine en temoignent 
an tnoins cjuatre des manifestations suivantes : (1) lie recherche ni lie prend 
plaisir aux relations proclies, y conipris les relations an sein de la fcimilie, (2) 
clioisit presque toil jours des activites solitaires, (3) manifeste pen on pas de 
cl e sir d'avoir des experiences sexuelles avec une autre personae, (4) prend 
plaisir a pen on a aucune cwtivite, (5) n’a pas d’anii on de confident mitres 
que ses parents an premier clegre, (6) apparent indifferent mix eloges et mix 
critiques que lui adressent les mitres, (7) manifeste une Jfoideur emotioimelle, 
du detaclieiiient on une cwtivite I i mi tee. 

B Ne survient pas exclusivement cm coins de revolution d une schizophrenic, 
d'un trouble de I'humeur avec caracteristiques psychotiques, d’mitres troubles 
psychotiques on d'un trouble envahissant du ileveloppement. N’est pas du ciux 
ejfets pliysiologiques directs de I’etcit de saute general. 

Cette definition nous permet de determiner les facettes qui devront etre prises 
en compte pour selectionner les items du questionnaire. Elle nous permet egale- 
ment de preciser les variables qui ne font pas paitie du concept. Dans le cas d’un 
questionnaire clinique, les items sont generalement des affirmations a propos des- 
quelles le sujet doit repondre si elles sont vraies ou fausses pour lui-meme (p.ex. 
« j'clime la compagnie des ciutres » vrai - faux). Des specialistes du domaine vont 
generer de tels items censes evaluer chacune des facettes du concept vise. La recolte 
des preuves de validite basees sur le contenu des items sera ensuite realisee par un 
ensemble d’experts qui devront apparier les items et les facettes (quelle facette est 
mesuree par quels items). Les experts verifieront de la sorte si toutes les facettes du 
concept sont bien prises en compte par les items du questionnaire, On demandera 
egalement aux experts d’evaluersi des variables parasites n’infiuencent pas indument 
les reponses a ceilains items (p.ex. certains mots de vocabulaire ne risquent-ils pas 
d’entramer des erreurs de comprehension par des personnes ayant un faible niveau 
scolaire ?). On invitera enfin les experts a evaluer le poids a donner a chacune des 
facettes du concept au sein du score total au questionnaire. Cette derniere tache est 
importante car la validite du score total depend non settlement de la qualite des 
scores qui le composent, mais aussi de 1’importance relative accordee a chacun de 
ces scores. Quelle serait, par exemple, la validite du score total a un questionnaire 
evaluant la personnalite schizoi'de dont la moitie des items concernerait uniquement 
le manque d’appetence sexuelle, qui n’est qu’une des facettes du concept de person¬ 
nalite schizoi'de ? 

Les preuves de validite recoltees lots de revaluation du contenu d’un test sont 
conditionnelles. Elies dependent en effet de la definition du concept vise, laquelle 
est toujours relative au lieu et au moment. Par exemple, la definition du concept de 
personnalite schizoi'de peut evoluer en fonction de Pevolution des connaissances en 
psychologie clinique. Par consequent, certaines facettes mesurees par le questionnaire 
peuvent, a un moment donne, se reveler inadequates Les preuves de validite sont 
egalement relatives a la fonction assignee au test. Par exemple, les experts peuvent 
considerer adequat le contenu d’un test d’anglais destine a servir d’examen d’admis- 
sion a un programme de formation. Par contre, ce meme contenu peut etre considere 
comme peu adequat si le test doit servir a diagnostiquer des difficultes d’appren- 
tissage de 1’anglais. Enfin, les preuves de validite dependent de la population visee 
par le test. Les experts ne jugeront pas les preuves de validite du contenu d’un test 
de lecture de la meme maniere si celui-ci est destine a des eleves beiges ou a des 
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Tableau 4.2 — Principes de base pour rassembler des preuves de validite basees 
sur le contenu d'un test (d'apres Haynes et a/., 1 995) 

1. Definir avec sain le domaine et les facettes du concept et valider cette definition. 

2. Utiliser un echantillon d'experts et de membres de lo population de reference pour creer les items et les outres aspects 
du test. 

3. Soumettre toutes les composantes du contenu du test d une etude de validite. 

4. Utiliser plusieurs experts pour evoluer les indices de validite bases sur le contenu du test et quantifier leurs jugements a 
I'aided'ecbelles formalism. 

5. Examiner lo representation proportionnelle des items relativement aux differentes facettes du concept. 

6. Presenter les preuves de validite basees sur le contenu lors de lo publication de tout nouvel instrument. 

7. Prendre en compte toutes les analyses psychometriques ulterieures pour affiner les preuves de validite basees sur le 
contenu du test. 


eleves quebecois. En elTet, d’un pays a 1’autre, le curriculum d’etude et la familiarite 
avec le vocabulaire peuvent differer sensiblement. Une preuve de validite pour les 
uns peut etre consideree comme une preuve de biais pour les autres. Le caractere 
conditionnel des preuves de validite basees sur le contenu implique que ces preuves 
ne sont jamais definitives. Une revision periodique des preuves de validite est, par 
consequent, necessaire. 

Haynes, Richard et Kubany (1995, pp. 244-247) proposent une synthese ties 
utile des regies de base qui devraient etre suivies pour recolter des preuves de validite 
basees sur le contenu d’un test. Le tableau 4.2 presente les sept regies essentielles que 
devrait respecter tout constructeur de test soucieux de produire des preuves de validite. 

Le jugement des experts joue un role crucial dans la procedure de validation 
basee sur le contenu d’un test. Les principes de validation 4 et 5 (tableau 4.2) impli- 
quent que ces jugements soient quantifies. Dans la suite de cette section, nous allons 
presenter plusieurs indicateurs quantitatifs de validite couramment utilises lors de la 
mise au point de tests. 

Dans le domaine de I’education, Crocker et Algina (1986) enumerent cinq 
indicateurs utilises pour evaluer dans quelle mesure un ensemble d’items sont repre- 
sentatifs des objectifs pedagogiques vises par le test : 

(1) le pourcentage d’items apparies aux objectifs; 

(2) le pourcentage d’items apparies aux objectifs juges ties importants ; 

(3) la correlation entre le poids des objectifs et le nombre d’items les mesurant 

(Klein et Kosecoff, 1975) ; 

(4) I’indice de congruence item-objectif (Hambleton, 1980); 

(5) le pourcentage des objectifs non mesures par les items. 

Ces cinq categories d’indices ne fournissent pas une information equivalente 
sur la congruence item-objectif. Les deux premiers, en particuiier, necessitent un 
impoilant echantillon d’items. Enfin, le troisieme ne fournit pas de resultats inte- 
ressants si tous les objectifs sont approximativement d’egale importance. Une faible 
variation des valeurs de ponderation de chaque objectif entrainera une diminution de 
la valeur maximale de la correlation. 
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Crocker et Algina (1985) out propose line version simplifiee de I’indice de Hamble- 
ton. L’indice de congruence de l’iteni / a l'objectif k est calcule par la formule suivante : 

'■ = 2 (4,) 

N= le nombre d’objectifs, 

X = la moyenne des evaluations de l’item / pour tous les objectifs, 

X, = la moyenne des evaluations de l’iteni / pour l'objectif k. 

L’indice / varie de - 1 a +1, la valeur de 1 n’etant possible que lorsque tous 
les juges ont apparie chaque item a un seul et meme objectif Le tableau 4.3 presente 
un exemple de calcul de 1’indice de congruence de Hambleton tel que simplifie par 
Crocker et Algina (1986). Les calculs sont effectues pour les resultats de trois juges 
evaluant sept items par rapport a trois objectifs Les juges (J1 a J3) ont eu a se pro- 
noncer sur la congruence entre chaque item (I a 7) et chaque objectif (Obj I a Obj 
3) : +1 indique que I’item mesure l’objectif, - 1 qu’il ne le mesure pas et 0 indique 
que le juge est incertain. 

Deux valeurs essentielles sont calculees (en italique dans le tableau) pour 
chaque item : la moyenne par objectif des evaluations des juges pour chaque item (X, 
a Xj), ainsi que la inoyenne, pour Fensemble des objectifs, des evaluations des juges 
pour chaque item ( X ). La deuxieme partie du tableau fournit les valeurs de l’indice 
de congruence calcule par la fomuile (4.1) pour chaque paire item-objectif. On peut 
remarquer que, selon les trois juges interroges, l’objectif 1 est mesure principalement 
(valeurs de I en gras) par les items 2, 6 et 7, l’objectif 2, par les items 1 et 4 et l’ob¬ 
jectif 3 par les items 3 et 5. L’item 7 est le seul a demontrer une congruence parfaite. 
En effet, tous les juges s’accordent pour aflirmer qu’il mesurait l’objectif 1 et qu’il 
ne mesurait ni l’objectif 2, ni l’objectif 3. C’est pourquoi il re^oit la valeur maximale 
de +1. 

Soulignons qu’il est important d’utiliser plus d’un seul indice de congruence. 
II est en effet plus facile d’obtenir un indice l eleve lorsque le calcul de l’indice 
ne porte que sur une proportion reduite des objectifs a couvrir. Le pourcentage des 
objectifs non mesures par les items devrait, par consequent, toujours accompagner 
l’indice / pour mieux saisir la portee de ce dernier 

Jusqu’a quel point peut-on compter sur le jugement des expeils pour evaluer 
la validite de contenu d’un test ? A cet egard, l’indice de Hambleton (1980) ne fait 
que calculer la congruence entre items et objectifs sans tenir compte du fait que les 
appreciations d’un ou plusieurs juges peuvent ne pas concorder avec celles des autres 
juges. Le degre de concordance (ou de fidelite) entre les juges peut etre evalue par 
trois indicateurs : 

1. La variance des jngements : lorsque celle-ci est faible, les juges ont tendance 
a attribuer la meme cote a un meme item. 

2. La concordance des jngements : les juges ont tendance a ordonner de la meme 
maniere les items selon leur degre de congruence avec la facette a mesurer. 
L’item le plus congruent pour un juge est egalement le plus congruent pour 
les autres juges. 

3. La coherence interne des jngements : les juges sont consistants dans leur 
maniere d’evaluer les items par rappoil aux autres juges. Un juge severe 
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Tableau 4.3 — Illustration du calcul de I'indice de congruence items/objectifs 


Items 

Objectif 1 


Objectif 2 

X, 

Objectif 3 

x, 


Jl 

J2 

J3 

Jl 

J2 

J3 

Jl 

J2 

13 

X 

1 

-1 

0 

0 

- 0,33 

n 

D 

D 

a 

B 

0 

- 1 

-0,67 

0 

2 

1 

D 

D 

D 


Bl 

m 



D 

0 

0,33 

0,11 

3 

D 



0,67 


0 



a 

n 

a 

D 

0,33 

4 

-1 



m 

0 

D 

D 

0,67 

i 


a 

-0,33 


5 

D 




-1 

0 

-i 

- 0,67 

D 

i 


0,67 

- 0,27 

6 

1 





-1 


- 0,33 

0 

a 

Bl 

-0,67 

m 

7 

1 

D 

O 

D 

n 

n 

■ 

m 

a 

a 


a 

- 0,33 


Items 

Indices 1 pour les trois objectifs 

Objectif 1 

Objectif 2 

Objectif 3 

1 

-0,25 

0,75 

-0,50 

2 

0,67 

-0,83 

0,17 

3 

0,25 

-0,75 


4 

-0,59 

0,67 


5 

-0,34 

-0,34 

0,67 

6 

0,59 

-0,17 

-0,42 

7 

1,00 

-0,50 

-0,50 


demeure severe pour tous les items, et non pas seulement pour quelques-uns 
d’entre eux. 

Supposons que nous ayons demande a un groupe de juges d’apprecier, sur 
une echelle de 1 a 5, dans quelle mesure une serie de questions evalue bien une 
des facettes d’une personnalite donnee. Plus la moyenne des evaluations de cliaque 
question est elevee, plus cette question est consideree pertinente par les juges. La 
figure 4.1 illustre comment representer graphiquement l’indicateur de variance dans 
cette situation. Chaque point de ce diagramme de dispersion est determine par les 
coordonnees suivantes : 

(1) en abscisse, la valeur moyenne des evaluations des juges concernant la perti¬ 
nence d’une question ; 

(2) en ordonnee, I’ecart type de la distribution des evaluations concernant cette 
meme question 

II ne suffit pas qu’un item re^oive une evaluation moyenne elevee pour juger 
de sa pertinence. Cette evaluation doit aussi etre sensiblement la meme pour un grand 
nombre de juges. Par exemple, si deux items re^oivent une cote moyenne de 4, celui 
dont la variance des jugements est egale a 0,6 possede une meilleure validite de 
contenu que celui dont la variance est egale a 1,4. Dans le diagramme de dispersion 
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Ecart type 



Figure 4.1 — Relation entre moyenne ef ecart type des iugements 
concernant un ensemble d'items 

de la figure 4.1, les items possedant la meilleure validite de contenu se situent, par 
consequent, dans le quatrieme quadrant. 

L’e valuation de la concordance des jugements est un moyen de verifier la fide- 
lite des jugements des experts appeles a se prononcer sur les preuves de validite 
basees sur le contenu des items. Dans ce cas, 1’attention se porte sur le classement 
des items realise par les juges. Seule la place de I’item dans le classement des juges 
est ici prise en compte. Le score attribue a I’item n’est pas considere. Supposons, 
par exemple, que l’item 6 soit juge par tous les experts comme celui qui mesure le 
mieux un trait de personnalite. Cette concordance des jugements signifie que cet item 
a regu la cote la plus elevee donnee par chaque expert. Sur une echelle de I a 5, cette 
valeur peut etre 3 pour un expert, 4 pour un autre et 5 pour un troisieme. Malgre cette 
difference de scores, I’item 6 est evalue de maniere concordante par les trois juges 
puisque ceux-ci lui accordent tous leur score le plus eleve 

Le coefficient W de Kendall (1948) permet de mesurer le degre de concor¬ 
dance entre plusieurs juges. Cet indice complete bien I’indice de variance presente 
ci-dessus car une part de la dispersion des resultats entre les juges peut provenir de la 
maniere dont ils utilisent I’echelle devaluation. Certains juges ont tendance a polari- 
ser leurs opinions et a n’employer que les valeurs extremes (p.ex. I ou 5). D’aulres, 
au contraire, situent leurs appreciations pres du centre et evitent les valeurs extremes 
(p.ex. 2, 3 ou 4). Ces differentes pratiques influencent la dispersion des appreciations 
des juges et done l’indice base sur la variance. Par contre, elles n’ont pas d’impact sur 


Tableau 4.4 — W de Kendall : transformation en rangs 



Store donned I'item 

Rang de I'item 

item 1 

item 2 

items 3 

item 1 

item 2 

item 3 

juge 1 

3 

5 

3 

2 

3 

1 

juge 2 

2 

3 

1 

2 

3 

1 

juge 3 

1 

2 

0 

2 

3 

1 
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le classement des items Plusieurs juges peuvent avoir le meme classement des items 
alors que la variance de leurs evaluations est differente. 

Le calcul de la valeur du W de Kendall se fait en trois etapes : 

1. transformer les scores observes en rangs pour chaque juge (tableau 4.4) ; 

2. calculer la valeur de s (tableau 4.5) ; 

3. calculer la valeur de W et son degre de signification (formule 4.3). 

La premiere etape est la plus simple. II s'agit d’ordonner les N items pourcha- 
cun des A - juges. Si les juges s’accordent entre eux, comme c’est le cas de I'exemple du 
tableau 4.4, l’ordre de leur appreciation devrait etre le meme pour tous et se traduire 
par des rangs semblables. Ainsi, dans notre exemple, meme si le juge 1 est celui qui 
accorde les scores les plus eleves aux trois items, il considere, au meme title que les 
deux autres juges, que I’item 3 est le plus difficile. De meme, relativement aux autres 
items, le juge 1 considere I’item 2 comme le plus facile des trois, parce que, tout 
comme les deux autres juges, c’est I’item auquel il accorde le plus de points. Bref, 
malgre des differences dans la valeur absolue des scores accordes, les trois juges s’en- 
tendent quant a la difficulte relative de chacun des items les uns par rapport aux autres. 

Une fois la transformation effectuee, il faut ensuite calculer la valeur de s. 
Cette valeur est egale a la sonime des ecarts entre la somme des rangs attribues a 
chaque item et la moyenne de la somme des rangs pour tous les items, le tout eleve 
au carre (formule 4.2). Plus la somme des ecarts est grande, plus les juges sont en 
accord En effet, si leurs evaluations ne concordaient pas, la somme des rangs pour 
chaque item serait approximativement la meme et ne differerait pas de la moyenne 



Rj = somme des rangs accordes a Litem / 

N = nombre d’iterns 

Le tableau 4.5 presente un exemple de calcul de la valeur de s pour les don- 
nees du tableau 4.4 Cette valeur est ensuite utilisee dans Lequation de calcul du W 
de Kendall pour trouver la valeur du coefficient. En voici la formule : 

W = 1 --- (4.3) 

— A 2 (N* - N) 

12 


Tableau 4.5 — W de Kendall : calcul de s 



5 = “ 6)! +(9 " 6)! + (3 " 6 > ! = ,8 
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En fait, il s’agit de diviser.? par la valeur maximale que s peut prendre avec k juges 
et N items (expression au denominateur). Dans notre exemple, la valeur de s est egale 
a la valeur maximale et le coefficient de Kendall est des lors egal a 1. Cette valeur 
correspond a une concordance parfaite des classements effectues par les dift'erents 
juges. Voici le detail des calculs de la valeur de W pour notre exemple : 


W = 


18 


— 3’(3 3 -3) 

12 


18 

18 


On peut enfin verifier si la valeur de W est significativement differente de 0. 
Lorsque N > 7, il est possible de transformer la valeur de W en valeur de y 2 se dis- 
tribuant avec N-l degres de liberte. La transformation s’effectue a partir de l’equa- 
tion suivante : 

y 2 = k{N- 1)W (4.4) 

Dans notre exemple, la valeur de y 2 nous est foumie en remplaqant les variables de 
Fequation (4.4) par leurs valeurs respectives (k = 3 juges, N - 3 items et W = 1), ce 
qui donne : 

y 2 = 3(3 - 1)1 = 6,0 

Une telle valeur de y 2 possedant deux degres de liberte est significativement diffe¬ 
rente de 0 au seuil de 0,05 (voir la table des valeurs de y 2 e| ' annexe 2). Ceci signifie 
que la valeur de W calculee est statistiquement significative et que le degre de concor¬ 
dance entre les juges peut difficilement etre considere comme le fruit de fluctuations 
aleatoires. 

Une rnesure alternative de I’accord entre les juges est donnee par le coefficient 
K (kappa) de Cohen. Ce coefficient postule que les donnees sont nominales. Ce coef¬ 
ficient est, par consequent, indique lorsque la tache demandee aux juges est un classe- 
ment des items dans des categories. Par exemple, les juges peuvent etre invites it mettre 
en correspondance des affirmations (p.ex. «j’aime les flews » ; «j’apprecie le travail 
en f>roupe »...) et differentes facettes de la personnalite qu’elles sont censees represen¬ 
ter (p.ex. « introversion » ; « extroversion »...). Dans ce cas, les facettes de la personna¬ 
lite sont prises comme des categories au sein desquelles les items doivent etre ranges. 

Le coefficient K prend en compte le nombre de fois ou les juges sont d’accord, 
mais prend egalement en compte le nombre d’accords qu’il serait possible d’obtenir 
au liasard. Par consequent, ce coefficient est plus exigeant que la plupart des autres 
indices de concordance et sera habituellement plus faible que ceux-ci. Le coefficient 
K est le rapport entre la proportion de fois ou les juges sont d’accord (corrigee pour 
accords dus a la chance) et la proportion maximum de fois oil ceux-ci pourraient etre 
d’accord (egalement corrigee pour accords dus a la chance) : 

K = -/_(£) (4.5) 

I - P(E) 

P(A) = proportion de fois ou les juges sont d’accord, 

P(E) = proportion de fois oil Foil s’attend a ce que les juges soient d’accord unique- 
ment par chance. 

La valeur de k est egale a 1 s’il y a un accord parfait entre les juges. Si, par 
contre, les accords ne depassent pas ceux qui etaient attendus du fait de la chance, la 
valeur de k est egale a 0. 
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Tableau 4.6 — Exemple de calcul du coefficient k de Cohen 



categorie 1 

categorie 2 

categorie 3 


item 1 

4 

0 

0 

12/12 = 1 

item 2 

1 

3 

0 

6/12 = 0,5 

item 3 

0 

2 

2 

4/12 = 0,333 

item 4 

0 

0 

4 

12/12 = 1 

C l 

5 

5 

6 



Nous allons illustrer le calcul de k avec un exemple simple ou quatre juges out 
chacun a classer quatre items en trois categories. Partant des donnees presentees dans 
le tableau 4.6, nous pouvons calculer P(E) a I’aide de la formule suivante : 

= ( 46 ) 

Cj - somme des frequences de la categorie j 
N = nombre d’items 


k = nombre de juges 
Dans notre exe 


mple, P(E) = f—I + f—I + (— I = 0,336 
U6j U6y v!6y 


Avant de calculer P(A), il est necessaire de calculer s, pour chacun des items 
au moyen de la formule suivante : 

s =--- -Y n (n 1) (4 7) 

' k{k - 1)^ ' ' ’ 


ti/j = frequence de I’item i dans la categorie j 
k = nombre de juges 

Les valeurs de s,- sont presentees dans la derniere colonne du tableau 4.6. Une 
fois ces valeurs calculees, on peut determiner la valeur de P(A) au moyen de la for¬ 
mule suivante : 

P(A) = — JjS (4.8) 

Dans I’exemple, P(A) = -(1 + 0,5 + 0,333 + 1) = 0,708. 

4 

Nous pouvons alors calculer la valeur de k = — 0 1 336 ^ q c^q Cette 

I - 0,336 

valeur nous renseigne sur I’existence d’un accord modere entre les quatre juges ii 
propos du classement des quatre items. 

La coherence interne est le dernier des trois indices utiles pour apprecier de 
maniere quantitative les jugements des experts a propos de la validite de contenu. La 
signilication et les methodes de calcul de la coherence interne ont ete abordees dans 
le chapitre 3. II se s’agit ni d’une valeur de concordance ni du degre d’accord entre 
les juges. Elle nous permet plutot de determiner si les juges sont constants dans leurs 
jugements. Ainsi, un juge severe dans son appreciation d’un item devrait I’etre pour 
tous les autres items, et reciproquement. 
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L’evaluation de la dispersion, de la concordance inter-juges et de la coherence 
interne des appreciations nous f'ournissent des indices differents, mais complementaires, 
du degre de confiance que 1’on peut avoir dans revaluation de la validite de contenu 
d’un test par un groupe de juges. Les items les plus valides seront ceux pour lesquels 
les juges auront manifesto le moins de dispersion dans leurs appreciations, la plus 
grande concordance dans leurs classements respectifs et la meilleure Constance entre 
items du meme type Pour une appreciation globale de la lidelite des juges, 1’etude de 
la generalisabilite (voir chapitre 3, section 7) demeure sans doute la methode la plus 
exhaustive et la plus puissante. Ces outils statistiques nous aident a mieux comprendre 
la difference qui existe dans la pratique entre validite apparente et validite de contenu. 

3. Preuves de validite basees sur les relations 
avec d'autres variables 

3.1 Principes generaux 

Si un test mesure une caracteristique particuliere, ses scores devraient etre bien corre- 
les avec tout critere mesurant la meme caracteristique ou une caracteristique voisine 
(preuves de convergence), et f'aiblement correles avec tout critere mesurant des carac- 
teristiques differentes (preuves de discrimination ou de divergence). Dans le premier 
cas, les scores au test et la(les) mesure(s) du critere devraient done partager une part 
importante de variance commune et, dans le second cas, une variance beaucoup plus 
faible et parl'ois meme nulle. Pour demontrer la validite des resultats d’un test, le 
constructed peut faire appel a deux types de critere : 

1. Le critere le plus facile a trouver est sans doute une autre mesure dont la vali¬ 
dite est reconnue et a propos duquel des preuves ont deja ete rassemblees. Une 
correlation elevee entre le test et le critere externe permet de penser que nous 
avons affaire a deux mesures de la meme caracteristique ou du meme trait. 
Une faible correlation pourra, quant a elle, apporter la preuve que le test et le 
critere mesurent bien deux caracteristiques distinctes. Nous avons affaire ici a 
une etude de validite concomitante. 

2. Le critere peut aussi etre un indicateur d’une performance que Ton cherche a 
predire. Nous aurons alors affaire a une etude de validite predictive. 

Parl'ois, le critere est relativement simple a mesurer. Par exemple, la taille d’un 
enfant a quatre ans peut etre un bon predicted de sa taille a 1’age adulte. Pour le 
demontrer, il sufiit de mesurer la taille de plusieurs sujets choisis au hasard a Page de 
quatre ans (predicted) et de prendre a nouveau la meme mesure a Page adulte (critere). 

Parfois, le critere parart simple a mesurer, mais les apparences peuvent etre 
trompeuses. C’est le cas, par exemple, du decrochage scolaire. Un test de depistage 
du decrochage scolaire possederait une bonne validite predictive s’il y avait une forte 
correlation entre le resultat au test et le decrochage futur de Peleve. 11 faudrait, bien 
entendu, definir operationnellement ce que 1’on entend par <-< decrochage scolaire ». 
Une telle definition operationnelle du decrochage scolaire pourrait etre : 

Abandon volontaire et prolonge des etudes, pour tine periode consecutive d'au 
moins deux ans, qui n’est ni la consequence d’une maladie, ni la consequence 
d’une sanction de /’institution scolaire. 
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Selon la definition precedente, une maternite adolescente ferait-elle partie des 
conditions acceptables de deciochage ? Ce n’est pas une maladie. Ce genre d’abandon 
peut-il etre considere coniine un abandon volontaire ? Pourtant, chez les sujets femi- 
nins, c’est un facteur important de deciochage. Si rien n'est fait pour tenircompte de 
ce facteur dans I’instrument de inesure, le risque est grand que la validite predictive 
du test soil meilleure pour les gallons que pour les filles. 

Enfin, le critere peut etre fort complexe et faire intervenir plusieurs habile- 
tes oil attitudes differentes. Prenons, par exemple, le critere du leadership. Si nous 
voulons construire un test qui predira les capacites de leadership d’un individu, il 
faut pouvoir mesurer tous les aspects de cette caracteristique. Le critere pourrait etre 
constitue de Pun ou de plusieurs des indicateurs suivants : 

• le rapport subjectif des gens qui travaillent sous la direction de I’individu ; 

• le rapport subjectif des superieurs hierarchiques ; 

• I’observation discrete de comportements de leader dans I’execution d’une 
tache avec des coequipiers. 

Le choix et la mesure d’un bon critere peuvent etre des taches tout aussi pro- 
blematiques que la construction de 1’instrument de mesure lui-meme. C’est pourquoi 
elles requierent un soin tout particular. Line etude de validite qui chercherait a etablir 
une correlation entre les resultats a un test et un critere mal defini au depart pourrait 
fort bien constituer une perte de temps ou encore conduire au re jet d’un bon instru¬ 
ment de mesure faute d’un seul critere adequat. La definition operationnelle du critere 
est I’une des plus importantes considerations pratiques dans I’estimation de la validite 
liee a un critere externe. 

3.2 Matrice multi-trait multi-methode 

Campbell et Fiske (1959) out defini une approche rigoureuse de I’etude des validites 
convergentes et divergentes. Ils proposent de construire une matrice de correlations 
entre resultats a des tests diff erents par ce qu’ils mesurent ( multi-trait) et par la faijon 
dont ils le mesurent ( multi-methode). Selon cette approche, la correlation la plus forte 
devrait etre obtenue entre deux tests mesurant le meme trait avec la meme methode. 
La correlation entre deux tests mesurant le meme trait par des methodes differentes 
(mono-trait, multi-methode) devrait quant a elle etre sensiblement plus faible. Enfin, 
les correlations entre deux tests mesurant des traits differents par la meme methode 
(multi-trait, mono-methode) ou par des methodes differentes (multi-trait, multi- 
methode) devraient etre nettement plus faibles. 

Le tableau 4.7 presente une matrice multi-trait, multi-methode. On y trouve 
les resultats d’une etude Active de validite convergente et discriminate portant sur 
trois peif«rmances en mathematiques (calcul, geometrie, problemes eciits) mesurees 
selon deux methodes differentes (questions a choix multiples et questions a reponse 
courte). En diagonale, nous retrouvons la correlation de chaque test avec un test 
similaire employant la meme methode. La diagonale nous renseigne sur la fidelite 
d’equivalence (en gras) et les autres valeurs sur la validite convergente. On peut ega- 
lement observer que les questions a choix de reponses donnent lieu a des resultats 
plus fideles (0,91 a 0,95) que les reponses courtes (0,82 a 0,85). 

Les preuves de validite convergente sont, dans cet exemple, ties satisfaisantes. 
Les correlations entre les tests mesurant la meme caracteristique selon la meme methode 
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sont tres elevees. Les correlations entre deux tests qui mesurent la meme caracteristique 
par des methodes differentes sont egalement elevees, quoiqu’un cran plus faibles que 
les precedentes (en italiques dans le tableau 4.7) : elles varient de 0,79 a 0,86 On peut 
interpreter ces resultats de deux manieres. La premiere est que la methode de mesure 
employee a peu d’effet sur la reussite et que le trait mesure est vraiment la variable la 
plus importante. La seconde maniere d’inteipreter ce resultat est typiquement edume- 
trique : ces resultats pourraient egalement signilier que I’apprentissage est suffisamment 
generalise pour permettre aux eleves de reussir des problemes presentes differemment. 

Les correlations sous la diagonale de chacune des parties de la matrice multi¬ 
trait multi-methode fournissent les coefficients de validite discriminante. On en dis¬ 
tingue deux sortes : les correlations mono-traits hetero-methodes et les correlations 
hetero-traits hetero-methodes Ces derniers coefficients sont les plus faibles de tous 
(0,15 a 0,28). En elfet, ces coefficients de validite discriminante font intervenir non 
seulement des traits, mais aussi des methodes de mesure differentes. Lorsque la vali¬ 
dite discriminante ne pone que sur l’effet de la methode de mesure, les correlations 
vont de faibles a moderees (methode 1 : 0,26 a 0,51 ; methode 2 : 0,22 a 0,41). II est 
a noter que les valeurs de validite discriminante pour la methode 2 sont toutes infe- 
rieures a celles obtenues pour la methode 1. Ceci est du au fait que les tests sont plus 
fideles avec la methode 1, ce qui permet de meilleures correlations entre les scores 
observes. La matrice multi-trait multi-methode nous revele que, parmi les trois tests, 
ce sont « Problemes ecrits » et « Geometrie » qui mesurent les competences les plus 
independantes Tune de l’autre. Ce resultat peut s’expliquer par le fait que le test de 
problemes ecrits mesure aussi la competence de comprehension en lecture qui n’est 
pas requise par l’epreuve de geometrie. 

La matrice multi-trait multi-methode nous oblige a formuler des hypotheses 
sur le niveau des correlations attendues. Ces hypotheses sont ensuite mises a l’epreuve 
des faits. Si toutes les hypotheses sont confirmees, nous disposons alors d’un large 
ensemhle rle preuves de validite convergente et de validite discriminante. Mais il se 
peut que certaines hypotheses ne soient pas confinnees. Dans ce cas, nous devrons 
nous interroger a propos de ce que mesurent effectivement nos tests a la lumiere des 
correlations inattendues observees (elevees ou faibles). 


Tableau 4.7 — Exemple de matrice multi-trait multi-methode 



Methode 1 

Methode 2 

Calcul 

Geometrie Prob. ecrits 

Calcul Geometrie 

Proh. ecrits 

1. Choix multiple 

• Calcul 

0,95 






• Geometrie 

0,51 

0,92 





• Problemes ecrits 

0,42 

0,26 

0,91 




2. Rep. courtes 

• Colcul 

0,83 



0,85 



• Geometrie 

0,28 

0,86 


0,41 

0,88 


• Problemes ecrits 

0,17 

0,15 

0,79 

0,36 

0,22 

0,82 
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3.3 Problemes d'estimation de la validite lies au calcul 

DES CORRELATIONS 

3 . 3.1 Effet de lo grandeur de I'echantillon 

La validite des resultats d’un instrument de mesure est une estimation plus ou moins 
entachee d’erreur. En effet, il n’y a aucune ceilitude quant a la probabilite de retrouver la 
meme valeur de validite avec un echantillon semblable tire de la meme population d’in- 
teret. La probabilite d’obtenir une valeur stable de validite s’accroit, cependant, lorsque 
celle-ci est calculee a partir d’un nombre suffisamment grand de resultats. Schmidt, 
Hunter et Urry (1976) out demontre qu’avec des echantillons de 200 sujets et plus, la 
valeur calculee de la validite etait celle de la population dans 90 % des cas. Cette proba¬ 
bilite diminue a 25 % et 35 % lorsque I'echantillon n’est que de 30 ou 50 sujets respec- 
tivement. Sauf s’il existe une tres forte relation entre le predicteur et le critere, il est par 
consequent preferable d’effectuer une etude de validite avec un grand nombre de sujets. 

Lorsqu’il est difficile d’effectuer une etude de validite avec de grands echan¬ 
tillons, il faut alors realiser plusieurs etudes de validite afin de voir si la correlation 
entre le predicteur et le critere se generalise a un ensemble de situations semblables. 
Cette contre-validation ou validation croisee (« cross-validation ») permet d’estimer 
1’impact des fluctuations d’echantillonnage sur la stabilite de 1’estimation de la vali¬ 
dite. Cette procedure consiste a calculer la meilleure equation de regression (voir 
Annexe 1) sur un echantillon et a voir comment elle permet de predire les resultats 
d’un autre echantillon tire de la meme population. Deux echantillons ne sont pas 
toujours necessaires. Lorsque le nombre de repondants est assez grand, on peut sim- 
plement repartir au hasard les sujets de I’echantillon total en deux groupes et calculer 
une regression lineaire surchaque moitie. 

3 . 3.2 Effet de la reduction de I'etendue 

Puisque 1’estimation de la validite repose tres souvent sur le calcul de correlations, la 
reduction de I’etendue a les memes effets que lots de 1’estimation de la correlation 
(voir Annexe 1). Celle-ci peut survenir dans trois cas particuliers d’etudes de validite : 

7. Le test est utilise pour des fins de selection, comme, par exemple, lot s d’une 
demande d’emploi. Si, apres avoir selectionne un groupe d’individus sur la 
base de leur peiformance au test, on cherche par la suite a demontrer la vali¬ 
dite de 1’instrument au moyen d’une correlation entre les resultats au test et 
la performance professionnelle, il faut tenir compte du fait que la correlation 
ainsi calculee ne comprend plus les valeurs les plus faibles au predicteur. Cette 
situation risque d’entramer la sous-estimation de la veritable validite du test 
puisqu’elle ne porte que sur une partie de I’echantillon de depart : les candi- 
dats qui ont ete acceptes. 

2. Le test predicteur est correle avec une variable intervenant dans la selection 
des sujets. C’est le cas lorsque nous cherchons a verifier la validite predictive 
d’un test d’aptitude aux etudes universitaires. Il est fort peu probable que tous 
les individus ayant repondu a un tel questionnaire terminent des etudes univer¬ 
sitaires. En effet, les universites possedent leurs propres politiques d’admis- 
sion souvent fondees sur les resultats academiques anterieurs du candidat. Les 
resultats academiques peuvent etre fortement correles avec le test predicteur, 
puisqu’apres tout, ils cherchent a predire la meme chose. D’autres facteurs 
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feront, par exemple, que de bons etudiants ne termineront pas leurs etudes : 
difficultes financieres, changement d’orientalion, etc. Tous ces facteurs font 
que I'echantillon sur lequel sera calculee la correlation entre test predicteur el 
critere de reussite universitaire (p.ex. la moyenne cumulative) ne sera constitue 
que d’une partie des personnes qui se sont presentees au lest. 

3. Le test predicteur pent etre trop facile on trop difficile. Un test trop f acile ne 
permet pas de differencier suffisamment les sujets foils au test predicteur el 
reduit par consequent la variance des resultats. II s’agit d’un effet plafond : 
un nombre important de sujets obtiennent le score maximum faute de ques¬ 
tions suffisamment difficiles pour les deparlager. La meme observation vaut 
egalement pour un test trop difficile. On parle alors d’un effet planclier : un 
grand nombre de sujets obtiennent un score faible ou nul faute de questions 
suffisamment ladles pour les differencier. Les consequences de ces deux effets 
sont une reduction de I’etendue des scores et, ipso facto, une sous-estimation 
de la correlation entre les variables considerees. 


Lorsque I’on dispose de I’information necessaire, en I’occurrence de I’ecait 
type de la distribution des scores au predicteur dans le groupe sans reduction d’eten- 
due, il est recommande de corriger le coefficient de correlation affecte par la reduc¬ 
tion de I’etendue des scores constalee dans I’etude de validite. Lorsque la reduction 
de I’etendue affecte uniquement les scores au test utilise comine predicteur et que 
cette reduction est due a la non prise en compte de I’une ou des deux extremites de 
la distribution, Thorndike (1949) propose d’utiliser la formule de correction suivante : 


vr 

Jv-r. -+ 1 


(4.9) 


Dans cette formule, r n est le coefficient de correlation observe et r n . est le coefficient 
eslime apres correction pour reduction d’etendue. La variable v est egale a ET JET ur , 
representant le rapport entre I’ecart type sans reduction d’etendue (£T„) et I’ecart 
type avec reduction d’etendue ( ET in ). 


En voici une application dans une etude de validite du lest d’intelligence 
W1SC-IV au sein d’un groupe de 56 enfants ages en moyenne de 7 ans. On observe 
que la correlation entre le score a l’indice Comprehension verbale au WISC-fV el 
la performance a une epreuve de comprehension en lecture en fin d’annee scolaire 
est egale a 0,56. L’ecart type des scores a l’indice Comprehension verbale au sein 
du groupe d’enfants de cette etude n’est que de 9,6, alors qu’il est de 15 dans la 
population des enfants du meme age. Dans ce cas, il est legitime de considerer que le 
coefficient de correlation entre le predicteur et le critere est sous evalue du fait d’une 
reduction de I’etendue des scores. Si nous appliquons la formule ci-dessus, nous obte- 
nons un coefficient de correlation nettement plus eleve : 


1,56 x 0,56 

7(2,44 x 0.31)-0,31 + I 


0,73 


II est important de souligner que la formule que nous venons d’appliquer ne convient 
pas lorsque la reduction de I’etendue affecte egalement le critere ou la /one centrale 
de distribution des scores au predicteur (par exemple, lorsque Ton n’a retenu dans 
I’elude que les sujets situes aux deux extremites de la distribution). Sacked el Yang 
(2000) ont propose une typologie des cas de reduction d’etendue Ires utile pour clioi- 
sir la formule de correction appropriee. 
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Par ailleurs, il est frequent que I’on opere line double correction du coefficient 
de correlation observe pour prendre en compte a la fois la reduction de i’etendue et 
le manque de Iklelite du predicteur et du critere (voir section 3.3.3). Lee, Miller & 
Graham (1982) out montre qu’une procedure en deux etapes, commengant par la 
correction d’attenuation suivie de la correction pour reduction d’elendue, donne des 
resultats ties proches de la procedure plus complexe proposee par Schmidt, Hunter et 
Uiry (1976). Cette procedure simple est des lors recommandee 

3 . 3.3 Effet de la fidelite du predicteur et du critere 

Lorsque nous calculous la validite des resultats a un test, nous realisons nos calculs 
sur les valeurs observees du predicteur et du critere. Ces valeurs sont imprecises, a 
moins qu’elles n’aient une fidelite parfaite. Considerant qu’une partie des valeurs 
observees est constitute d’erreurs aleatorres, il est normal que nous tenions compte 
de cette erreur dans le calcul des correlations. 

Si 1’on souhaite estimer la validite, non pas a partir des scores observes, mais 
a partir des scores vrais, il est necessaire d’effectuer la correction elite d'attenuation , 
formulee dans 1’equation suivante : 

(4.10) 


Dans cette equation, le numerateur represente la correlation entre les scores observes 
et le denominateur represente le produit des racines carrees de la fidelite du predicteur 
et du critere. Le resultat de la division nous donne la correlation corrigee pour atte¬ 
nuation. La collection pour attenuation nous permet d’estimer le potentiel de validite 
d’un test. En effet, si la correlation corrigee pour attenuation est faible, il y a peu 
d’espoir d’ameliorer la validite du test. C’est sans doute qu’il n’y a pas dissociation 
ties forte entre le predicteur et le critere dans les conditions ou a ete realisee 1’etude 
de validite. Par contre, si la validite, une fois corrigee pour attenuation est beaucoup 
plus elevee, ceci peut vouloir dire que nous pourrions accroitre sensiblement celle-ci 
en ameliorant la fidelite du test, notamment en augmentant le nombre d'items. 

Supposons que nous ayons obtenu une correlation de 0,45 entre un predicteur 
et un critere. La fidelite du test predicteur est de 0,55 et la fidelite du critere est de 
0,70 La correlation corrigee pour attenuation sera la suivante : 


r = 


0,45 


= 0.73 


sj0f55yj0J0 

La valeur de 0,73 est le coefficient maximum de correlation que nous pourrions obtenir 
entre les scores observes an predicteur et au critere en postulant qu’il n’y a aucune erreur 
de mesure. 11 s’agirait la d’une preuve solide de validite. Mais est-il possible d’attebidre 
cette valeur en pratique ? Nous n’avons souvent que peu de prises sur le ciitere. I] peut, 
par consequent, etre difficile d’accroitre la precision de cette mesure. Par contre, nous 
pouvons accroitre la fidelite des resultats au test predicteur en augmentant le nombre 
d'items. Quel effet aurait 1’augmentation du nombre d’items sur la validite des resultats ? 

Supposons que nous allions jusqu’a doubler le nombre d’items du test pre¬ 
dicteur. La formule de Spearman-Brown nous permet d’esperer la fidelite suivante 
(chapitre 3, §4.4) : 

2(0,55) 

'xx- " — 


2V 

1 + 


1 + 0,55 


- = 0,71 
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Si la fidelite du test devait passer de 0,55 a 0,71, on peut s’attendre a un accroisse- 
ment significatif de la correlation entre scores observes. En utilisant cette nouvelle 
valeur, nous pouvons resoudre 1’equation (4.10) pour trouver r tl . : 

r x' J = 0 73 

VoTtIVot^ 

r xy = 0,73VojIV(X70 = 0,51 

En doublant le nombre d’items et en postulant que la correlation entre les scores vrais 
du test predicteur et du critere demeure la meme (0.73), on peut s’attendre a ce que la 
correlation observee entre les scores au test et au critere passe de 0,45 a 0,51. Cette 
correlation peut etre consideree conime une preuve de validite acceptable dans cer- 
taines situations, mais elle demontre aussi combien il y a loin de la coupe aux levies, 
c’est-a-dire entre la correlation potentielle et la correlation qu’il est possible d’obtenir 
dans la realite en ameliorant la fidelite du test predicteur. 

4. Preuves de validite basees sur la structure 
interne du test 

4.1 Principes generaux 

Lorsque Ton traite de validite conceptuelle, I’on ne peut s’empecher de faire allusion 
au fait que, dans revolution de toute science, la comprehension d’un phenomene va 
de pair avec notre capacite a le mesurer adequatement. Qu’il s’agisse de variables 
composites comme l’intelligence, la motivation scolaire ou les styles cognitifs, notre 
capacite a tester ces variables et a les etudier depend de notre habilete a les mesurer. 
Sans resultats valides sur ces concepts, il est difficile d’entrevoir comment la connais- 
sance et la comprehension de leur role dans les phenomenes etudies peuvent progres- 
ser. En retour, sans etude de ces phenomenes et sans une comprehension suffisante, i 1 
est difficile de developper des instruments de mesure adequats. 

La validite conceptuelle est done au cceur du probleme de l’operationnalisa- 
tion des variables. Pour realiser une etude de validite conceptuelle, il faut recueillir 
une grande quantite d’informations. Celles-ci devront decouler des predictions, hypo¬ 
theses que I’on peut tirer de la theorie. C’est en reference a cette structure que sont 
organises les items en echelles et sous-echelles et que sont calcules les differents 
scores composites. Le modele theorique qui sous-tend la structure du test nous perinet 
de formuler des hypotheses a propos des relations que nous devrions observer entre, 
d’une part, les scores aux items et, d’autre part, les scores composites. Lorsque ces 
hypotheses ne sont pas confirmees par les resultats au test, deux interpretations sont 
possibles : 

1. L’instrument de mesure est une bonne operationnalisation du modele theorique, 
mais ce dernier n’est pas pertinent. Dans ce cas, il faut modifier le modele et, 
parfois meme, changer de cadre theorique. 

2. Le modele theorique est valide, mais I’instrumenten est une mauvaise operationnali¬ 

sation. II faut alors revoir l’instrument (les items, les consignes, les criteres de cota- 
tion...). Il est egalement possible que la validite des donnees recoltees soil sujette a 
caution (echantillon trap homogene, conditions de passation inadequates...). 
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Prenons le cas d’un instrument ayant pour but de mesurer 1’intelligence. 
L’etude de la validite basee sur la structure ne sera pas la meme pour un test de quo¬ 
tient intellectue! (Ql) que pour un test d’intelligence operatoire inspire de la theorie 
genetique de Jean Piaget. Les deux theories representant des modeles ties differents 
de 1’intelligence, les instruments de mesure qui en seront derives seront egalement 
tres differents. 

Dans le cas des tests de QI, on devrait s’attendre a ce que ce genre de test 
differencie plusieurs facettes de l’intelligence, notamment l’intelligence verbale et 
Pintelligence visuo-spatiale. Les epreuves mesurant i’intelligence verbale devraient 
etre correles plus etroitement entre elles qu’avec les epreuves mesurant I’intelligence 
visuo-spatiale. Une epreuve d’intelligence verbale qui aurait une correlation elevee 
avec une epreuve d’intelligence visuo-spatiale poserait probleme, mettant en ques¬ 
tion soil le modele de 1 ’intelligence utilise (est-il pertinent de distinguer 1 ’intelligence 
verbale de I’intelligence visuo-spatiale ?), soil la qualite des epreuves construites 
(inesurent-elles bien specifiquement une seule facette de 1’intelligence ?). 

D’autres informations peuvent etre prises en consideration lors de la recolte de 
preuves de validite basees sur la structure interne du test. Parexemple, si les resultats 
d’etudes neurologiques poitant sur la specialisation hemispherique indiquent que les 
homines reussissent mieux dans le domaine des habiletes spatiales et que les femmes 
reussissent mieux dans le domaine des habiletes verbales, les resultats aux tests d’in¬ 
telligence devraient normalement mettre en evidence des resultats significativement 
superieurs des femmes aux epreuves d’intelligence verbale et significativement supe- 
rieurs des homines aux epreuves d’intelligence spatiale. De tels resultats seraient une 
confirmation des etudes neurologiques en plus de constituer des preuves de validite 
basees sur la structure interne du test. 

Dans le cas des tests piagetiens, sur la base du modele theorique, nous pos- 
tulons que les items s’organisent selon un continuum unidimensionnel. La structure 
du test prevoit que I’ordre de reussite des items devrait etre conforme a la progres¬ 
sion developpementale des habiletes. Par exemple, des items necessitant la maitrise 
des operations concretes devraient necessairement etre reussis avant les items faisant 
appel aux operations formelles. 11 y aurait un probleme de validite si des items de 
raisonnement formel etaient reussis, alors que des items de raisonnement concret du 
meme domaine etaient rates En d’autres termes, on s’attend a ce que les items d’un 
test d’intelligence operatoire base sur la theorie de Piaget constituent une echelle 
liierareliique. Une telle echelle est egalement appelee « sccilogranime de Guttman » 
(du nom du psychometricien americain qui l’a etudiee, Guttman, 1950). Le constat 
d’une hierarchie dans I’ordre de reussite des items constituera une preuve de validite 
conceptuelle des resultats au test. Dans la mesure ou 1’ordre hierarchique peut ne 
pas etre parfait du fait d’inevitables erreurs de mesure, on calcule generalement un 
coefficient de reproductibilite (formule 4.1 I) qui permet d’estimer a quel point le 
caractere hierarchique et invariant de I’ordre des items appuie la validite conceptuelle 
des resultats au test. 

L’exemple du tableau 4.8 illustre comment les resultats aux items d’un test 
operatoire peuvent former une hierarchie. Dans ce tableau, les sujets sont ordonnes 
selon leur score total et les items selon leur difficulte. II en resulte une distribution 
plus ou moins en « escalier » illustrant le caractere hierarchique des resultats. 

Comine on pent le constater, les resultats aux cinq items de ce test forment 
une hierarchie presque parfaite. L’item 4 est le plus difficile et 1’item 3 est le plus 
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Tableau 4.8 — Exemple d'items formant une echelle hierarchique 



facile. Lorsqu’un item difficile est reussi par un sujet, tous les items plus faciles le 
sont aussi, mises a part quelques exceptions qui constituent des erreitrs (sujets 4 et 
6) On peut des lots affirmer que les resultats a ce test sont reprocliutibles. En effet, 
lorsqu’un test est hierarchique, il est possible de predirc quels items ont ete reussis et 
quels items ont ete rates a partir de la seule connaissance du score total. Connaissant 
1’ordre de difficulte des items et sachant que cet ordre est le meme pour tous, un sujet 
qui obtiendrait un score de 1 a 1’examen du tableau 7, devrait reussir 1’item 3 qui est 
le plus facile des cinq items Lorsqu’un sujet ayant obtenu un score de I reussit un 
autre item que 1’item 3, il y a erreur dans la reproductibilite totale du test : e’est le 
cas des sujets 4 et 6. 

Guttman (1950) propose de considerer que les resultats d’un test sont hierar- 
chiques lorsque moins de 10 % des resultats ne sont pas reproductibles. Il propose de 
calculer un coefficient de reproductibilite de la maniere suivante : 

CR = 1- (4H) 

Dans cette equation, CR est le coefficient de reproductibilite, h. le nombre d’erreurs 
de reproductibilite, n - le nombre d’items et «, le nombre de personnes Le nombre 
d’erreurs est donne par le nombre de fois qu’un item lournit un resultat qui n’est pas 
en accord avec le score total obtenu et 1’ordre de difficulte de 1’ensemble des items. 

Le coefficient de reproductibilite a plusieurs fois ete employe comme preuve 
de la validite des tests operatoires piagetiens. Dans le cas des donnees du tableau 4.8, 
sa valeurest la suivante : 

CR = 1 - = 0,92 

5 x 10 

Le test du tableau 4.8 possede done une reproductibilite acceptable, superieure au 
seuii de 0,90 recommande par Guttman (1950), Sa validite, du point de vue de 1’in¬ 
variance de 1’ordre de reussite de ses items et done de la conform! te de ses resultats 
a la structure du test, est des lors demontree. 
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4.2 Etude des traits latents 

4 . 2.1 L'onolyse fodorielle 

L'analyse factorielle est une methode de choix pour apporter des preuves de validite 
sur la base de la structure interne d’un test. Elle permet en eff et de mettre en evidence 
les relations entre les caracteristiques mesurees, mais non directement observables 
(par exemple, I’intelligence, la depression ou la competence mathematique), et les 
scores observes aux items ou aux echelles qui constituent le test. Lorsque nous ne dis- 
posons pas a priori d’un modele des caracteristiques mentales sous-jacentes au test, 
l’analyse factorielle permet de suggerer un certain nombre de traits et leurs relations 
avec les scores observes. Dans ce cas, l’analyse factorielle est qualifiee d 'explora- 
toire. Par contre, lorsque nous partons d’un modele des caracteristiques mesurees et 
que nous verifions au moyen de l’analyse factorielle son ajustement avec les scores 
observes, celle-ci est qualiliee de confinnutoire. Dans la suite de cette section, nous 
allons presenter, de maniere synthetique et a 1’aide d'exemples, comment Fusage de 
l’analyse factorielle confirmatoire permet de recolter des preuves de validite. 

Dans plusieurs situations, nous savons qu’en depit des differences de contenu, 
de format, de taches, les items mesurent une caracteristique commune qui les 
influence tous Nous nous attendons, dans ce cas, a ce que les items qui mesurent une 
meme caracteristique soient fortement correles. Coniine pour l’analyse des resultats 
aux tests par la matrice multi-trait, multi-methode, des items (ou des sous-echelles) 
mesurant le meme trait devraient se reunir en « grappes » de correlations elevees 
detectables a I’inspection visuelle d’une matrice de correlations 

L’analyse factorielle permet d’aller plus loin que la simple inspection visuelle des 
matrices de correlation. Elle permet egalement d'extraire les composantes ou facteurs de 
variance commune, cliaque facteur rendant compte d’une partie de la vanance totale des 
resultats de la matrice des variances-covariances qui n’est pas expliquee par les autres 
facteurs. Ces facteurs, ou composantes principales, sont egalement appeles traits latents, 
parce qu’il s’agit de variables non directement observables que I’on postule et sur les- 
quelles on projette la variance commune a un certain nombre de variables observees. 

La figure 4.2 illustre de fagon simple ce qu’est un trait latent. La situation pre¬ 
sentee est celle de deux variables X et Y en forte correlation Si X et Y sont fortement 
correlees, c’est que, vraisemblablement, elles mesurent la meme chose, le meme trait 
latent. On peut se demander pourquoi il est necessaire d’utiliser deux variables pour 
mesurer la meme chose, alors qu’elles nous fournissent toutes deux la meme informa¬ 
tion. Mais quelle variable faut-il conserver ? 

La solution est representee graphiquement dans la figure 4.2. Plutot que d’ef- 
fectuer les observations dans un systeme a deux variables, celles-ci peuvent etre pro- 
jetees sur une nouvelle variable qui retient I’essentiel de la variance commune a X et 
a Y. Cette nouvelle variable est le trail latent, generalemcnt appele facteur. Comme 
on peut le constater, cette operation, qui reduit le systeme d’observation de deux a une 
seule variable, entraTne une certaine perte d’information puisque toutes les observa¬ 
tions ne coincident pas parfaitement avec la droite representant le facteur. Toutefois, 
ce dernier rend compte de la plus grande partie de la dispersion des resultats qui s’ef- 
fectue a present selon l’axe horizontal. Quant a la dispersion des resultats selon 1’axe 
vertical, elle correspond a une quantite negligeable. Ce qui est legerement perdu en 
information est largement gagne en parcimonie, c’est-a-dire en simplicite du modele. 
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Figure 4.2 — Le trait latent explique la plus grande partie de la variance 

La figure 4.2 presente une situation d’unidimensionnalite, c’est-a-dire qu’un 
seul facteur est necessaire pour rendre compte de la variance des resultats. Lorsqu’il 
faut plus d’un facteur pour expliquer les resultats, nous avons affaire a un modele 
miillicliinensionnel de traits latents (figure 4.3). Cette situation se presente lorsque X 
et Y lie sont que moderement correlees. 11 est alors difficile d'expliquer la variance 
commune entre ces deux variables par un systeme lie comprenant qu’une seule 
variable latente. Une fois expliquee une bonne partie de la dispersion des resultats 
par un axe horizontal representant le trait latent, il subsiste une forte dispersion selon 
1’axe vertical dont nous ne rendons pas compte. Nous sommes alors face a un choix : 

1. ne retenir qu’une seule dimension avec le risque de ne pas rendre compte d’une 
partie importante de la variance des resultats (representee par la dispersion 
verticale) ; 

2. ajouter une deuxieme dimension avec la perte de parcimonie que cela implique. 


Facteu r 2 


Facteur 1 


Figure 4.3 — Modele avec deix facteurs 
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Ce choix doit se faire en ponderant les avantages qu’il y a a remplacer deux 
variables par un seul trait latent et les inconvenients qu’il y a a negliger une partie 
de la variance totale. Dans les situations a plusieurs variables et lorsque la part de 
variance negligee est trop grande, il est necessaire d’utiliser plusieurs traits latents 
qui vont permettre d’expliquer une part plus substantielle de la variance des resultats 
observes, tout en conservant un gain de parcimonie. 

Lorsqu’une analyse factorielle doit poiter sur les j items a un examen, nous 
sommes loin de la situation relativement simple decrite par un systeme a deux 
variables. C’est de j variables qu’il s’agit et done, potentiellement de j traits latents. 
Idealement, le constructeur de test prefere se trouver dans une situation oil ces traits 
latents sont peu nombreux et faciles a identifier. Le cas le plus simple est celui d’un 
test unidimensionnd ne comprenant qu’un scul trait latent. Par contre, lorsqu’un seul 
trait latent n’est pas suffisant pour expliquer la plus grande partie des resultats, il faut 
avoir recours a d’autres traits latents. S’il y a trop de traits latents, c’est que le test 
mesure une grande variete de caracteristiques : a la limite, presque autant de caracte- 
ristiques diff erentes qu’il y a d’items. C’est pourquoi pour des raisons d’homogeneite 
des resultats, le constructeur de test prefere se retrouver dans la situation oil son test 
mesure un nombre limite de variables independantes les unes des autres. 

Le developpement de I’analyse factorielle est intimement lie a I’histoire des 
tests. C’est en eff'et Spearman (1907) qui, au debut du siecle, jette les bases de l’ana- 
lyse factorielle. Observant des correlations elevees entre les resultats a differents tests 
d’intelligence, Spearman avance I’hypothese que les performances a ces tests sont 
essentiellement determinees par un facteur general, le facteur g. Des facteurs speci- 
fiques a cliaque test interviennent egalement, mais jouent un role mineur. La methode 
d’analyse factorielle developpee par Spearman lui permet de produire des resultats 
empiriques en faveur de son hypothese. Trente ans plus tard, ces resultats sont toute- 
fois remis en question parTliurstone qui s’appuie sur une nouvelle technique d’analyse 
factorielle. Coniine Spearman, Thurstone (1928) utilise des axes factoriels orthogo- 
naux et done independants les uns des autres. Cependant, plutot que de maintenir ces 
axes de fa^on a ce que le premier l’acteur explique la plus grande partie de la variance 
et que les autres n’en expliquent que le residu, il a I’idee d’effectuer une rotation des 
axes afin d’ameliorer le degre d’adaptation entre les donnees et la structure factorielle. 
11 recherche ainsi la structure la plus simple et determine celle-ci par des criteres 
mathematiques dont le plus connu est certainement le critere Variimix , selon lequel on 
cherche a ce que la variance soit maximale sur chacun des axes factoriels (figure 4.4). 
Cette methode aboutit a ce que chacun des facteurs explique un groupe de resultats et 
rien que celui-la. En d’autres termes, il n’y a plus un facteur dominant qui explique 
la plus grande partie des correlations, mais une multiplicity de facteurs qui, chacun, 
explique un ensemble plus ou moins restreint de correlations. Ainsi, la methode de 
Thurstone conduisit a remettre en question le modele hierarchique cree par Spearman, 
au profit d’un modele multifactoriel d’ou le facteur g est exclu 

Le debat entre Spearman et Thurstone illustre bien 1 ’interet de l’analyse fac¬ 
torielle comme moyen de validation d’un modele de traits latents. Mais il souligne 
aussi les limites de cette methode En effet, du point de vue strictement mathema- 
tique, Spearman et Thurstone out tous les deux raison. En fait, I’analyse factorielle 
permet seulement de verifier si les donnees sont consistantes ou non avec la struc¬ 
ture factorielle postulee. Lorsque les donnees sont compatibles avec plusieurs struc¬ 
tures latentes, l’analyse factorielle ne nous permet pas de determiner laquelle choisir. 
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Figure 4.4 — Exemple d'application de la rotation Varimax 

Ce choix ne peut etre fait que sur des bases theoriques. Par consequent, dans le cadre 
d’une demarche de validation des resultats a un test, Fanalyse factorielle nous apporte 
des informations necessaires, mais non suffisantes, Le praticien ne devra done pas 
oublier que toute demarche d’analyse factorielle s’appuie sur deux postulats de base : 

1. Le postulat de causalite factorielle selon lequel les variables observees sont 
des combinaisons lineaires de variables causales sous-jacentes. Les resultats 
d’analyse factorielle ne peuvent, en aucun cas, nous servir a prouver ce pos¬ 
tulat. Ces resultats peuvent eventuellement nous amener a conclure qu’un 
modele factoriel, base sur ce postulat, n’est pas consistant avec les donnees 
d’observation Par contre, lorsqu’il y a consistance, il reste encore au cher- 
cheur a defendre la pertinence du modele qu’il propose. 

2. Le postulat de parcimonie selon lequel, entre deux solutions factorielles, nous 
devrons choisir la plus simple. Bien que ce postulat soit largement accepte 
par les chercheurs, il n’est pas possible de demontrer son bien-fonde. Dans la 
realite, une structure factorielle simple est-elle toujours plus plausible qu’une 
structure plus complexe ? 

Du fait de ces deux postulats, I’utilisation de I’analyse factorielle comme tech¬ 
nique de validation est moins evidente qu’il n’y parait au premier abord. Pour iHustler 
la complexite de Finterpretation des resultats d’analyse factorielle, nous avons soumis 
les memes donnees a deux analyses differentes, II s’agit des donnees d’etalonnage de 
Fadaptation frangaise de Fechelle d’intelligence de Wechsler pour enfants, la WISC- 
R (Wechsler, 1981). Ces donnees ont ete recueillies sur un echantillon de 1066 su jets 
representatif de la population frangaise agee de 6 ans 6 mois a 16 ans 6 mois. Pour 
rappel, ce test d’intelligence comprend 12 epreuves regroupees en deux ensembles : 
Fechelle Verbale et Fechelle Performance. Le WISC-R permet de calculer un Q1 
total, base sur les resultats aux 12 epreuves, un Q1 Verbal, base sur les 6 epreuves 
de Fechelle verbale, et un QI Performance, base sur les 6 epreuves de Fechelle de 
performance. Les deux methodes d’analyse factorielle utilisees sont : 

(1) Une analyse en facteurs conumms et speeijiejites avec rotation varimax. Nous 
avons defini a priori une solution avec deux facteurs. 

(2) Une analyse en facteurs conumms et specifiques avec rotation varimax pour 
une solution a trois facteurs specifice a priori, De nombreux chercheurs 
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(par exemple, Kaufman, 1975) out en effet defendu l’idee d’un regroupe- 
nient des epreuves en trois ensembles, au lieu de deux A cote d’un facteur 
« Comprehension verbale » et d’un facteur « Organisation perceptive », ces 
auteurs postulent l’existence d’un facteur « Attention/Concentration » qui satu- 
rerait particulierement les epreuves Memoire, Code et Arithmetique. 

Pour comprendre correctement les donnees figurant dans les tableaux 4.9 et 
4.10, quelques explications techniques sont necessaires. Les valeurs mentionnees 
clans ces tableaux representent les saturations des epreuves par chacun des facteurs. 
Lorsque les differents facteurs sont orthogonaux, c’est-a-dire non correles (les axes 
factoriels forment alors un angle de 90°), les saturations sont les correlations entre les 
facteurs et les variables. C’est le cas dans nos deux exemples. Par consequent, en ele- 
vant une saturation au cane, nous obtenons la proportion de variance d’une variable 
determinee par le facteur en question. 

Passons a present en revue les tableaux. Nous pouvons nous rendre compte 
que les deux analyses fnctorielles realisees a partir des memes donnees apportent 
des arguments en faveur de deux modeles factoriels possibles. La solution avec deux 
facteurs va dans le sens du regroupement des epreuves du WISC-R en deux sous- 
echelles, l’une verbale et Pautre de performance. Dans ce modele, seule Pepreuve 
de Code ne montre pas de saturations factorielles bien affirmees. La solution avec 
trois facteurs rend admissible un autre regroupement d’epreuves. Quelle solution 
factorielle devons-nous des lors choisir ? Comrne souligne plus haut, la reponse n’est 
pas de nature mathematique. C’est en fait le modele du fonctionnement intellectuel 
que nous defendons qui permettra de determiner la solution factorielle la plus ade¬ 
quate. 


Tableau 4.9 — Analyse factorielle en facteurs communs ef specifiques 
avec rotation varimax (deux facteurs) 


Epreuves 

Facteur 1 

Focteur 2 

Voccbulaire 

0,83 

0,19 

Comprehension 

0,73 

0,20 

Information 

0,73 

0,29 

Similitudes 

0,69 

0,32 

Arilhmetique 

0,58 

0,30 

Memoire 

0,46 

0,18 


Ass. d'objets 

0,18 

0,74 

Cubes 

0,27 

0,67 

Images b completer 

0,36 

0,57 

Arrangements d'images 

0,37 

0,51 

Labyrinthes 

0,12 

0,44 

Code 

0,23 

0,22 
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Tableau 4.10 — Analyse factorielle en facteurs communs et specifiques 
avec rotation varimax (trois facteurs) 


Epreuves 

Facteur 1 

Facteur 2 

Facteur 3 

Vocabulaire 

0,80 

0,19 

0,27 

Comprehension 

0,72 

0,20 

0,23 

Information 

0,68 

0,28 

0,27 

Similitudes 

0,61 

0,30 

0,31 


Assemblages d'objets 

0,16 

0,74 

0,12 

Cubes 

0,14 

0,65 

0,35 

Imoges a completer 

0,36 

0,58 

0,12 

Arrangements d'images 

0,37 

0,52 

o,n 

Labyrinthes 

0,09 

0,43 

0,17 


Arithmetique 

0,40 

0,24 

0,55 

Memoire 

0,27 

0,10 

0,53 

Code 

0,13 

0,17 

0,42 

Hormis les 

problemes d’interpretation, 

1’analyse factorielle souleve plusieurs 


questions methodologiques relatives aux conditions de son application. Les plus 
importantes concernent : 


(1) La taille de I’echantillon. Plus 1’echantillon de sujets est petit, moins les coef¬ 
ficients de correlation entre les variables observees seront significatifs. Par 
consequent, les solutions f'actorielles obtenues seront sujettes a caution. II n’y a 
toutefois pas de taille d’echantillon ideale. Une regie generalement admise est 
d’avoir au moins cinq sujets par- variable observee, avec un minimum de 100 
sujets par analyse (Gorsuch, 1983). Parexemple, si nous souhaitons realiser une 
analyse factorielle avec les reponses a un questionnaire de 40 questions, celui-ci 
devraetre rempli par au moins 200 sujets Cette regie n’est cependant pas abso- 
lue. Si les congelations entre variables sont ti es elevees et ties fiables et que les 
facteurs sont peu nombreux, un echantillon relativement petit pourra suffire. Par' 
contre, si les correlations entre variables sont toutes f'aibles (inferieures a 0,30), 
I’oppoilunite de realiser une analyse factorielle devra etre remise en question, 
quelle que soit la taille de I’echantillon. En effet, dans un tel cas, il n’y a pra- 
tiquement rien a analyser Par consequent, avant de realiser une analyse facto¬ 
rielle, une inspection de la matrice des correlations entre variables s’impose. 

(2) La normalite. Les inferences statistiques utilisees pour determiner le nombre 
de facteurs s’appuient sur le postulat de normalite multivariee. Ce postulat 
signifie que toutes les variables et toutes les combinaisons de variables se dis- 
tribuent normalement. Nous ne pouvons tester la normalite de toutes les com¬ 
binaisons lineaires de variables. Par contre, la normalite de chaque variable 
peut etre appreciee en regardant son coefficient d’asymetrie et son coefficient 
d’aplatissement (voir chapitre 2). 
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(3) La Unearite. Rappelons que les coefficients de correlation evaluent tine rela¬ 
tion lineaire entre les variables En cas de non-linearite de ces relations, les 
coefficients de correlations en seront affectes, ce qui risque de mettre en ques¬ 
tion les resultats des analyses factorielles. La linearite de la relation entre 
variables peut etre veriliee a I’aide de graphiques de dispersion. 

4.2.2 Les modeles struduroux d'equations 

Le developpement dans les annees 1980 de logiciels comme LISREL (Joreskog & Sor- 
bom, 1 993) et EQS (Bentler, 1989) a rendu possible un usage aise des modeles structu- 
raux d’equations (MSE) comme methode statistique permettant d’apporter des preuves 
de validite. Les MSE out, depuis lots, pris une place grandissante dans les etudes de 
validite des tests et des questionnaires, lls tendent aujourd’hui a supplanter les analyses 
factorielles classiques. Les MSE permettent en effet d’evaluer le degre d’adequation 
entre les resultats obtenus avec un test et le modele theorique, parfois complexe, qui 
sous-tend ce dernier. Pour celte raison, les MSE sont essentiellement utilises comme 
des analyses factorielles confirmatoires. Ils permettent en effet de confirmer que les 
resultats d’un test sont bien en accord avec un modele theorique donne. 

Les MSE utilisent des modeles de plusieurs equations de regression lineaire 
qui decrivent les relations entre des variables dependantes et independantes. Certaines 



Figure 4.5 — Diagramme en pistes causoles representant les relations entre 
les epreuves du KABC-II et le modele des variables latentes qui sous-tend le test 
(Kaufman & Kaufman, 2008) 
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de ces variables sont directement observables. Ce sont les mesures obtenues a 1’aide 
du test. D’autres variables sont seulement postulees et inferees sur la base des mesures 
realisees. Ce sont des variables latentes. 

Le point de depart d’une analyse en MSE consiste en une description du 
modele de relation entre les variables. Generalement, cette description debute par 
un diagramme en pistes causales qui est ensuite traduit sous la forme d’un systeme 
d’equations. L'exemple de la figure 4.5 offre une illustration d’un diagramme en 
pistes causales II s’agit du modele theorique sur la base duquel a ete construit le 
test d’intelligence KABC-11 (Kaufman & Kaufman, 2008). Ce modele, inspire des 
modeles de Carroll (1993) et de Cattell-Horn (Horn & Noll, 1997), postule que les 
performances aux dix epreuves du test sont determinees par cinq grandes competences 
intellectuelles : I’intelligence cristallisee (Gc), 1 ’ intelligence visuo-spatiale (Cv), 1’in- 
telligence lluide (Gf), la memoire a long terme (Glr) et la memoire a court terme 
(Gsm). Toutes ces competences intellectuelles sont elles-memes determinees par une 
competence intellectuelle generale (g). Dans un diagramme en pistes causales, les 
variables observees (les scores aux epreuves) sont representees par des rectangles et 
les variables latentes (les facteurs) sont representees par des ovales. Les relations de 
causalite sont, quant a elles, representees par des fleches. Chacune de ces relations est 
exprimee sous la forme d'une equation de regression lineaire. Les relations entre les 
variables observees et les variables latentes constituent le modele de mesure. Quant 
aux relations entre les variables latentes, elles constituent le modele structural. 

Le modele global constitue de ces deux sous-modeles est ensuite mis a 1’epreuve 
des faits. Concretement, il s'agit de verifier que les relations entre les variables mesu- 
rees, exprimees sous la forme d’une matrice de correlations ou de covariances, sont 
compatibles avec le modele defini a priori. L’analyse fournit deux types d’informa- 
tions : (1) les coefficients de regression de chacune des equations, (2) des indices 
d’ajustement entre les donnees du test et le modele. Dans le cas du KABC-II, 1’ana- 
lyse en MES a ete realisee a partir des donnees de 602 enlants ages de 7 a 12 ans a 
l’aide du logiciel LISREL 8 (Joreskog & Sorbom, 1993). Les resultats de cette analyse 
indiquent. par exemple, que I epreuve 1 = 2,23 x Gc et Vepreuve 2 = 1,99 x Gc. Les 
coefficients de regression sont accompagnes d’une erreur type d’estimation et d’une 
valeur de t permettant de determiner si le coefficient est statistiquement significatif. 

Quant aux indices d’ajustement, leur liste est longue. II n’existe pas d’indice 
parfait. Les differents indices apportent des informations qui se completent. II est des 
lors utile d’examiner plusieurs indices pour juger la qualite d’un ajustement. Nous ne 
mentionnons ci-dessous que les indices les plus couramment utilises dans les etudes 
de validite Les lecteurs qui souhaitent une presentation plus complete des indices 
d’ajustement peuvent consulter un ouvrage d’intreduction aux MES coniine celui de 
Schumacker et Lomax (2004) ou de Byrne (2006). Le khi cane est un indice d’ajus¬ 
tement qui mesure la difference entre la matrice de covariance determinee sur la base 
des resultats des personnes evaluees et la matrice de covariance predite sur la base 
du modele. Le khi cane est en fait un indice de mauvais ajustement : plus sa valeur 
est petite, meilleur est Eajustement. Un khi cane non significatif (p < 0,05) signifie 
que 1’ecart entre la matrice de covariance observee et la matrice predite est statisti¬ 
quement non significatif, ce qui indique un bon ajustement des resultats recoltes avec 
le test au modele theorique. Malheureusement, le khi cane est ties sensible a la taille 
de I’echantillon. De plus, il n’est pas penalise par le manque de parcimonie : plus le 
modele est complexe, meilleur est I’ajustement et la valeur du khi cane. L 'ajusted 
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good>wss-of-fit index (AGFI) est un indice d’ajustemeiit qui reduit l’influence de la 
taille de I’echantillon. II prend en compte le nombre de degres de libeile relativement 
an nombre de variables. Une valeur de l’AGFI > 0,90 indique un bon ajustement an 
modele. Le root mean square of approximation (RMSEA) introduit line correction 
pour le manque de parcimonie : les modeles plus complexes sont penalises par rap¬ 
port aux modeles plus simples. Une valeur du RMSEA < 0,06 indique un bon ajuste- 
ment au modele (Hu & Bender, 1999). Enfin, le comparative Jit index (CFI) compare 
l’ajustement au modele a Fajustement a un modele de base oil les variables latentes 
ne sont pas correlees. Une valeur entre 0,92 and 0,95 est consideree comme indi¬ 
quant un bon ajustement (Byrne, 2006 ; Hu & Bender, 1999). Tous ces indices peu- 
vent egalement etre utilises pour comparer Fajustement a plusieurs modeles mis en 
competition. Dans ce cas, le modele le plus adequat estcelui pour lequel les indices 
d’ajustement sont les meilleurs. 

5. La validite differentielle 

5.3 Le concept de biais 

Les preuves de validite d’un test sont generalement recoltees pour Fensemble de la 
population pour laquelle le test a ete developpe. On postule ainsi que la validite d’une 
inference faite a partir des scores au test en question est equivalente pour tous les 
sujets de cette population. Depuis les annees 1970, ce postulat a ete largement remis 
en question. En effet, nous ne pouvons pas ecarter a priori que la validite des infe¬ 
rences faites a partir des scores a un test puisse varier au sein d’une meme population 
selon le groupe d’appartenance des sujets evalues. Par exemple, un test de mathema- 
tiques peut nous permettre d’evaluer de maniere valide les competences en resolu¬ 
tion de problemes a la condition que les sujets n’aient aucune difficulty pour lire les 
enonces des questions. Par consequent, 1’evaluation des competences en resolution de 
problemes faite sur la base de ce test ne sera pas valide pour les sujets souffrant de 
troubles de la lecture Ces sujets obtiendront systematiquement des scores I'aibles du 
fait de leur dilficulte a lire les questions et non du fait de leur niveau dc competence 
en resolution de problemes mathematiques. La validite des inferences faites sur la 
base des scores au test variera done au sein d’une meme population selon que le sujet 
evalue appartienne ou non au groupe des mauvais lecteurs. De meme, les inferences 
faites sur la base des scores a un test d’intelligence peuvent avoir une validite diffe- 
rente pour les filles et pour les gallons s’il est constitue uniquement de problemes de 
nature spatiale. En effet, les filles out habituellement des performances un peu plus 
faibles que celles des gallons lorsqu’elles doivent realiser des operations mentales 
sur des representations spatiales (Voyer et al„ 1995). Elies risquent des lors d’avoir 
des scores systematiquement inferieurs a ceux des gallons alors que leur capacite de 
raisonnement est identique. 

II apparaft des lors necessaire d’evaluer la validite des inferences faites sur 
la base des scores a un test non seulement pour les differents usages que nous sou- 
haitons faire de ce dernier, mais aussi pour les differents groupes de la population 
auxquels nous aurons l’occasion de l’appliquer. On parle a ce propos d’etudes de la 
validite differentielle. Un biais existe lorsqu’une difference de validite des inferences 
faites sur la base des scores au test est observee entre certains groupes de la popu¬ 
lation. En d’autres termes, nous parlerons de biais lorsque « les scores au test out 
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des significations on des implications pour un groupe determine d’utilisateurs qui 
different de lews significations on de lews implications pour les autres utilisatenrs » 
(Cole & Moss, 1989, p. 205). 

L’evaluation de la validite differentielle est une procedure complexe. Coniine 
toute etude de validite, il s’agit d’une demarche toujours inachevee. Pour chacune 
des utilisations escomptees du test, il est en effet necessaire de produire des preuves 
de I’absence de biais. L’evaluation de la validite differentielle basee sur le contenu, 
les processus de reponses, la structure interne du test, les relations avec d’autres 
variables et les consequences du testing permet de recolter des preuves complemen- 
taires concernant I’absence de biais clans le test etudie. 

Soulignons d’emblee que I’existence d’une difference entre les moyennes des 
scores de deux groupes de la population n’est pas en soi la preuve de I’existence 
d’un biais. En fait, une difference de cette nature peut simplement refleter une diffe¬ 
rence d’opportunite d’apprentissage entre les deux groupes de sujets consideres. Par 
exemple, si les filles choisissent moins souvent que les gallons les options scienti- 
fiques, il sera logique d’observer a un test de sciences un score moyen des filles infe- 
rieur a celui des gallons. Dans ce cas, nous ne pourrons bien entendu pas parler de 
biais. Dans les tests cognitifs et d’acquis scolaires, I'observation de differences d’effi- 
cience est inevitable, car celles-ci refletent les differences d’opportunites d’apprentis¬ 
sage offertes a chacun par son milieu. Par consequent, « c’est /'absence de difference 
observee qui devrait poser probleme et mettre en doute la qualite d’un test, et non 
I’inverse » (Gregoire, 1992, p. 93). Les tests, en permettant de mettre en evidence 
les differences de performances entre les groupes qui composent la population, peu- 
vent d’ailleurs avoir une utilite sociale. Grace a de telles observations, nous sommes 
conduits a mettre en ceuvre des actions de remediation dont I’objectif est de donner 
a chacun des chances d’epanouissemenl et de reussite les plus equitables possibles. 

S.4 Evaluation de la validity differentielle 

Nous avons indique plus haut que, pour reperer les eventuels biais dans un test, nous 
devons verifier que la validite des inferences faites sur la base des scores a ce test est 
equivalente pour les differents groupes de la population. Pour ce faire, nous devons 
examiner les differents types de preuves de validite du test. Dans cette section, nous 
aborderons tour a tour les preuves de validite differentielle basees sur le contenu, les 
relations avec d’autres variables et la structure interne du test, coniine nous Pavons 
fait de fa^on globale dans la section 3. 

5.4.1 Les preuves de validite basees sur le contenu 

L’evaluation de la validite differentielle du contenu consiste a verifier si, au sein de 
chacun des groupes de la population, le contenu des items est approprie pour mcsu- 
rer la realite souhaitee Cette evaluation s’appuie sur les jugements de specialistes du 
domaine mesure par le test. Ces jugements concement les representations et la fami- 
liarite des membres de chaque groupe par rapport au contenu des items, ils concement 
egalement la presence de stereotypes relatifs a I’un des groupes en question qui pour- 
raient eventuellement favoriser ou defavoriser les performances. Malheureusement, ces 
jugements out I’inconvenient de tester souvent subjectifs. On se contente generalement 
de passer en revue tous les items et d’eliminer ceux qui paraissent inadaptes pour 
certains groupes La limite de cette methode est bien exprimee en anglais par I’expres- 



la validite differentielle 


199 


sion ironique qui la designe : « armchair validity ». Pour diminuer la subjectivity des 
jugements, des grilles d’analyse out ete mises an point et revaluation des items est 
generalement faite par plusieurs juges. La reconnaissance d’un item comme biaise est 
alors decidee sur la base de I’ensemble des jugements. Mais les resultats ne semblent 
pas a la hauteur de I’effort fourni car les tests ainsi epures des items biaises fournis- 
sent generalement des resultats peu differents de ceux obtenus avec les tests originels 
(Flaugher, 1978 ; Sattler, 1988). La detection des biais ne peut done se limiter a la 
seule evaluation par des juges. Cette methode doit etre completee par' une evaluation 
quantitative basee sur les resultats obtenus par les differents groupes etudies. 

Les evaluations quantitatives s’interessent essentiellement a la difficulte et a 
la discrimination des items. Elies ont pour but de verifier si tous les items permettent 
de classer les sujets de maniere equitable. Pour cela, les items doivent mesurer uni- 
quement la realite que nous desirous evaluer et non des variables parasites liees au 
groupe d’appartenance Si, par exemple, dans un test de raisonnement, certains items 
font appel aux regies d’un sport ti es pratique par les gal lons, mais peu par les lilies, 
ces items risquent d’etre inequitables. Ils seront en effet plus faciles pour les gallons 
que pour les lilies du fait de I’infl.uence d’une variable qui n’a lien a voir avec les 
capacites de raisonnement. De tels items presentent un fonctionnement differentiel 
qui conduit habituellement a les eliminer du test. Le fonctionnement differentiel d’un 
item n’est pas uniquement lie au contenu de la question. II peut aussi decouler des 
modalites de reponse a cet item. Par exemple, pour certains groupes de sujets, le sys- 
teme de reponse a choix multiples peut etre une source de difficulte particuliere. Cer¬ 
tains groupes peuvent egalement choisir de ne pas repondre a une question a reponse 
courte dans une plus grande propoition que d’autres groupes de sujets. De meme, si 
certains items demandent une reponse ecrite, la qualite de la calligraphie des sujets 
peut etre source d’iniquite. Ceilains correcteurs peuvent en effet etre influences favo- 
rablement ou defavorablement dans leur eolation par la calligraphie du texte dont ils 
doivent juger le contenu, Comme nous pouvons le voir, les sources d’iniquite sont 
nombreuses et demandent une analyse minutieuse du fonctionnement differentiel de 
tous les items du test dont nous evaluons la validite differentielle. 

L’analyse du fonctionnement differentiel des items se fait generalement lors 
de la construction du test. Pour cette raison, nous detaillons les techniques d’analyse 
du fonctionnement differentiel dans le chapitre consacre a I’analyse des items (cha- 
pitre 5, section 7). Par ailleurs, des techniques plus sophistiquees d’analyse du fonc¬ 
tionnement differentiel, basees sur les modeles de reponse a I’item, sont decrites dans 
le chapitre consacre a la presentation de ces modeles (chapitre 7, section 6). 

5.4.2 Les preuves de validite basees sur les relations avec d'autres 
variables 

Lorsque nous etudions la validite differentielle des inferences faites sur la base des 
scores a un test, il est souvent important de comparer, pour differents groupes de 
la population, la relation entre le score au test et une mesure externe prise comme 
critere. En effet, cette relation sous-tend de nombreuses decisions prises a partir des 
resultats de tests. Par exemple, des enfants sont regulierement orientes dans I’ensei- 
gnement specialise sur la base de leurs faibles resultats a un test d’intelligence dont 
les scores sont lies a la reussite scolaire. De meme, des etudiants peuvent se voir 
refuser faeces a un programme d’etudes du fait de leur score insuffisant a un test 
predictif de la reussite de ce programme. Vu 1’importance de ces decisions, il est 
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essentiel que la validite predictive d'un test soit equivalente pour tous les groupes 
concernes par I’usage de ce test. Pour contrdler si un test est equitable du point de 
vue predictif pour deux groupes de sujets, nous pouvons calculer dans chacun de ces 
deux groupes les coefficients de correlation entre les resultats au test et les resultats 
au critere, puis verifier s’il existe line difference significative entre ces coefficients. 
La comparaison des coeflicients de correlation est cependant insuflisante A deux 
coefficients identiques peuvent en fait correspondre des systemes de prediction dif- 
ferents. Pour nous en rendre compte, nous devons determiner, pour les deux groupes 
etudies, la droite de regression qui unit les scores au test et au critere. Si cette droite 
est identique dans les deux groupes, nous pouvons, en premiere approximation, consi- 
derer que la validite predictive du test est equitable pour les deux groupes consideres. 
Si les droites de regression sont. au contraire, differentes pour chaque groupe, le 
test doit etre considere comme biaise, car il conduit a des predictions differentes en 
fonction du groupe d’appartenance. 

La figure 4.6 propose line illustration de ces deux situations. Les ovales 
representent les images de points pour chacun des deux groupes. Dans le graphique 
de gauche, bien que le score moyen au test soit different clans les cleux groupes, 
nous constatons que la droite de regression est la meme pour les deux groupes Par 
consequent, quel que soit le groupe d’appartenance, un score eleve au test implique 
un resultat eleve au critere, et reciproquement. Dans le graphique de droite, le score 
moyen au test est different dans les deux groupes, mais les droites de regression sont 
egalement ties differentes. Par consequent, les predictions faites sur la base des scores 
au test sont biaisees. Si un sujet appartient au groupe B, il devra en effet obtenir un 
score beaucoup plus eleve au test qu’un sujet du groupe A pour que la prediction du 
resultat au critere soit la meme (droites flechees en pointilles). 

La comparaison des droites de regression souleve toutefois quelques pro- 
blemes d’interpretation. Les erreurs de mesure au test et au critere peuvent en effet 
etre differentes selon les groupes. Par consequent, du seul fait de I’inegalite des 
erreurs de mesure, des differences de droite de regression peuvent apparaitre entre 
certains groupes alors que le test n’est pas biaise. Lors de revaluation de la prediction 
differentielle, nous devrons done toujours tenir compte des erreurs de mesure dans 
chacun des groupes consideres. Par ailleurs, I’importance de la pente de la droite peut 
egalement entrainer un biais en defaveur d’un des groupes. Cette situation est illustree 
dans la figure 4 7 (d’apres Camilli & Shepard, 1994) oil les deux groupes partagent la 



Figure 4.6 — Evaluation de la validite predictive differentielle a I'aide des droites 
de regression des deux groupes compares 
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Figure 4.7 — Presence d'un biais malgre une droife de regression commune 
aux deux groupes compares 

ineiiie droite de regression Toutefois, comine nous pouvons le constater, la difference 
de moyenne est plus grande sur le test que sur le critere. 

Si la distribution des scores est normale dans les deux groupes au test et au 
critere, nous pouvons aisement nous rendre compte que cette situation aboutit a une 
injustice a 1’encontre des sujets du groupe A. Supposons que, pour selectionner les 
sujets, nous fixions le score seuil au niveau du score moyen du groupe B Dans ce 
cas, 50 % des sujets de ce groupe seront selectionnes. Par contre, dans le groupe 
A, 16 % seulement des sujets seront selectionnes. Pourtant, sur le critere, 31 % des 
sujets de ce ineme groupe atteignent le niveau de performance desire. Pour resoudre 
ce probleme, Thorndike (1971) propose de choisir un score seuil au test different pour 
les deux groupes en fonction de leur performance sur le critere. 

5.4.3 Les preuves de validite basees sur la structure interne du test 

Lorsque nous apprecions la validite differentielle des inferences faites sur la base 
des scores a un test, nous devons nous demander si Torganisation du test, basee sur 
un modele theorique donne, est valide pour les differents groupes qui composent la 
population. Cette organisation sous-tend en effet le calcul des scores et des sous- 
scores. 11 est done essentiel de ve'rifier si les regroupements d’items el d’ensembles 
d’items sont fondes, quel que soit le groupe d’appartenance des sujets evalues Par 
exemple, le test d’intelligence de Wechsler pour enfants (WISC-R) est organise en 
deux e'chelles appele'es respectivement Verbale et Performance. Pour que le calcul 
d’un score d’e'chelle ait un sens, il est necessaire que les performances aux epreuves 
qui composent cette echelle soienl tres lie'es entre elles. Si ce n’est pas le cas, 1c score 
d’echelle ne sera guere plus qu’un amalgame d’informations hete'rogenes sans signi¬ 
fication pre'eise. Pour legitimer forganisation du WISC-R en deux e'chelles, fanalyse 
fiictorielle a ete' largemcnt utilisee. Le plus souvent, les resultats de ces analyses out 
confirme' le bien-fonde' de forganisation du WISC-R pour les differents groupes de la 
population. Ainsi, Reschly (1978) a e'tudie' la validite' differentielle de forganisation 
du WISC-R en fonction de f origine ethnique des enfants americains : blanche, noire, 
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hispanique et amerindienne. A partir des resultats de chaque groupe, il a realise une 
analyse en composante principale avec rotation varimax pour les solutions avec deux, 
trois et quatre facteurs. La solution avec deux facteurs apparait comme la meilleure 
dans les quatre groupes etudies. Cette solution bifactorielle recouvre la division du 
WISC-R en Verbal et Performance , et ceci pour tous les groupes. Ces resultats consti¬ 
tuent un argument important en faveur de la validite des inferences faites sur la base 
des scores au WISC-R, quel que soit le groupe d’appartenance des sujets examines. 

Bien qu’apparemment simple dans son principe, 1’usage de 1’analyse facto- 
rielle pour etudier la validite differentielle souleve cependant une importante diffi- 
culte. Comment evaluer les similitudes et les diff erences entre les solutions factorielles 
obtenues dans differents groupes ? II est en effet frequent que les solutions obtenues 
se recouvrent plus ou moins largement selon les groupes. II faut alors estimer si les 
solutions obtenues dans les differents groupes sont suffisamment proches pour etre 
considerees comme equivalentes. Une comparaison purement subjective n’est pas suf- 
fisante et conduit a des conclusions peu consistantes. Des procedures quantitatives 
de comparaison out ete mises au point, comme celle proposee par Joreskog (1971), 
basee sur les nwdeles strnctnraux d‘equations (voir section 4.2.2 du present chapitre). 
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L’analyse des items ressemble a une repetition d’orchestre. Dans un orchestre, les 
instruments doivent jouer de fagon harmonieuse. Selon la partition, certains inter- 
viendront a un moment bien precis. D’autres devront jouer en harmonie. Le tout doit 
produire une sensation musicale particuliere correspondant aux intentions du compo¬ 
siteur et du chef d’orchestre. 

Une situation similaire prevaut lors de I’analyse d’items. Celle-ci doit nous per- 
mettre d’identifier les items qui ne jouent pas en harmonie avec les autres ou qui ne 
jouent pas au meme iy thine. Certains jouent trop fort, d’autres pas assez. Certains se 
trompent carrement de partition. Le but du constructeur de test est de s’assurer que le 
message fourni par les items soit clair, harmonieux et precis. En psychometric, I’ana- 
lyse des items aide le constructeur de tests a choisir les meilleurs items a partir d’un 
ensemble de depart souvent plus grand que necessaire. En education, la situation est 
toute autre. Les examens de rendement scolaire sont rarement mis a I’epreuve avant la 
passation en salle de classe. Ceci rend I’analyse d’items encore plus essentielle. C’est 
alors le seul moyen dont I’enseignant dispose pour modem les resultats a un examen. 

Les analyses d’items peuvent prendre plusieurs formes. Celles-ci dependront 
des objectifs du constructeur de test et aussi de la methode de preparation du test. 
En psychometric, il est generalement prevu au depart de construire plus d’items que 
necessaire, afm de ne retenir que ceux qui sont les plus valides. L’analyse des items 
conespond davantage a un processus de selection : seuls les meilleurs seront retenus. 
En edumetrie, c’est la fonction de 1’evaluation qui decide de la forme que prend 
I’analyse d’items. L’analyse d’items d’un examen final, administre en vue d’une eva¬ 
luation sommative, sera fort differente de celle d’un instrument de mesure criteriee, 
administre en vue d’une evaluation diagnostique ou d’une evaluation formative. II se 
peut qu’un item convenant parfaitement dans le cadre d’une evaluation formative ne 
possede pas les caracteristiques desirees pour une bonne evaluation sommative. 

Parmi les caracteristiques qui peuvent nous aider a mieux selectionner les 
items en fonction des objectifs devaluation d’un test, les quatre suivantes sont les 
plus importantes : 
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• I'indice de difficulty ; 

• I’indice de discrimination ; 

• I’indice de fidelity ; 

• l’indice de validity. 

Malheureusement, il n’est pas possible d’interpreter ces indices en eux-memes. 
Chacun doit etre interprete en fonction du contexte dans lequel I’instrument dont il 
fait partie est employe. Par exemple, il n’est pas possible d’affirmer qu’un item reussi 
par 90 % des sujets est trop facile. La difficulty de I’item est relative au groupe (fort 
ou faible), mais aussi aux attentes face au groupe. S’agit-il d’un item mesurant un 
prerequis ? un objectif essentiel ? un objectif intermediaire ? une aptitude complexe ? 
S’agit-il d’un groupe fort? d'un groupe faible? L'interpretation de la difficulty de 
1’item, ainsi que de toutes ses autres caracteristiques, dependra de la reponse que nous 
ferons a ces questions 

1. La difficult^ de I'item 

1.1 L'indice de difficulty 

Dans le cas d’items dichotomiques, la difficulty de I’item est donnee par la proportion 
des repondants qui reussissent I’item. L’indice p de difficulty de I’item peut prendre 
des valeurs de 0 a 1 : les valeurs pres de 0 indiquent un item que peu de sujets out 
reussi. alors que des valeurs pres de 1 indiquent un item auquel une grande proportion 
des participants out repondu avec succes. 

Lorsque I’item est cote sur une echelle de plusieurs points, l’indice de diffi¬ 
culty nous est indique par la moyenne des cotes accordees a cet item pour I’ensemble 
des sujets. C’est ce qu’indique la formule (5.1) qui donnera un indice dont la valeur 
variera entre 0 et 1 si I’item est note de faijon dichotomique. 



n 


Plus la moyenne est elevee, plus I’item est reussi par un grand nombre de sujets. 
Plus elle est faible, moins I’item est reussi. Il peut etre utile de diviser la moyenne 
de I’item par l’etendue de I’echelle, pour assurer la comparaison des resultats notes 
sur des echelles differentes (de 2 points, de 5 points et de 1 point). Le tableau 5.1 
presente les resultats du calcul de la moyenne pour trois items notes sur des echelles 
differentes. Le premier item est note sur une echelle de cinq points, le second sur 
une echelle de deux points et le dernier sur une echelle dichotomique. Comme on le 
voit, les moyennes ne permettent pas de comparer la difficulty relative a chaque item. 
Lorsque nous desirous comparer la difficulty relative de plusieurs items, il nous faut 
ramener leurs moyennes a une echelle comparable. C’est ce que nous avons fait en 
divisant la moyenne de chaque item par I’etendue de la note, ce qui produit une valeur 
decimale (entre 0 et 1) que I’on peut interpreter de maniere uniforme : c’est ce que 
nous appellerons Vindice de difficulte , afin de ne pas le confondre avec la moyenne de 
I'item. Par exemple, la moyenne de I’item cote sur 5 points a ete divisee par 5, ce qui 
a donne 3,10/5 = 0,62. Dans la derniere rangee du tableau 5.1, il ressort clairement 
de ces transformations que I’item corrige sur deux points est le plus facile (/; = 0,70). 
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Tableau 5.1 — Moyennes et indices de difficulty de trois items 


Sujet # 

Item f/5) 

Item (/2) 

Item (/l) 

Total (/8) 

1 

3 

2 

1 

6 

2 

5 

2 

0 

7 

3 

5 

2 

0 

7 

4 

5 

2 

1 

8 

5 

4 

2 

i 

7 

6 

3 

1 

1 

5 

7 

2 

1 


4 

8 

2 

1 

1 

4 

9 

0 

0 

0 

0 

10 

2 

1 

0 

3 

Moyenne 

3,10 

1,40 

0,60 

5,10 

Difficulty p 

0,62 

0,70 

0,60 

p = 0,64 


La rangee des indices de difficulty du tableau 5.1 nous fournit une autre valeur 
interessante, celle de la difficulte moyenne des items : 




0,62 + 0,70 + 0,60 
3 


0,64 


ou p represente le degre de dif liculte de chaque item et j le nombre d’items. 

Cette valeur p est souvent preferable a la moyenne du test puisque cette der- 
niere est inlluencee par le systeme de notation. En effet, il vaut mieux dire qu’un test 
a une dif ficulte moyenne de 0,64 plutot que d’indiquer que la moyenne obtenue est 
5,1 sur 8. L’indice de dif liculte moyen ne tient pas compte de la pondeiation indivi- 
duelle des items dans le calcul de la note totale. Dans notre exemple, I’item corrige 
sur une echelle de 5 points exerce un plus grand impact que les deux autres items qui 
se voient accorder 1 point et 2 points. 

Deux facteurs peuvent inliuencer notre interpretation de l’indice de difficulty : 

• le nombre de reponses omises ; 

• la probability de reussir I’item au liasard. 

Lorsqu’un grand nombre de personnes n’ont pu repondre a un item par 
manque dc temps, 1’indice de difficulty ne refiete pas veritablement la difficulty 
de I’item. Plusieurs sujets n’ayant pas repondu auraient pu reussir un ou plusieurs 
items additionnels s’ils avaient dispose de plus de temps Dans une telle situation, 
I’indice de difficulty mesure deux choses : la difficulty de I’item et la rapidite du 
repondant. Le calcul d’un nouvel indice de difficulty, base cette f'ois sur le nombre 
de sujets ayant repondu a la question plutot qu’au test, ne resout pas vraiment le 
probleme. L’indice de difficulty risque d’etre surestime etant donne qu’il y a de 
fortes chances que ceux qui out repondu a I’item soient les plus rapides et aussi les 
plus forts. 
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Lorsque 1’indice de difficulty est calcule sur un item a choix de reponses, 
il faut tenir compte de la probability de reussir I’item sans vraiment connaitre la 
reponse. C’est ainsi qu’un item a reponse courte dont le coefficient de difficulty 
serait de 0,75 pourrait etre considere comme relativement facile. Ce ne serait pas 
le cas d’un item de type « vrai-faux » qui aurait un indice de difficulty de 0,75. 
Comme la probability de reussite au hasard est deja de 0,50, I’item « vrai-faux » 
devrait etre considere comme relativement plus difficile que I’item a reponse 
courte. 

II est possible de corriger 1’indice de difficulty pour 1’effet du hasard chaque 
fois que Ton peut admettre que les leurres out une chance a peu pres egale d’etre 
choisis. La formule de correction de 1’indice de difficulty pour le hasard est la sui- 
vante : 


P' =p~ 


1 -P 
M - 1 


(5.2) 


Dans I’equation (5.2), p’ represente 1’indice de difficulty corrige, p represente I’indice 
de difficulty de depart et M le nombre de choix de reponses pour cet item. 

Cette collection n’est pas necessaire pour comparer les indices de difficulty 
d’un test constitue de questions semblables : par exemple, un ensemble de questions a 
quatre choix de reponses. On sait que, dans ce cas, la probability de reussite au hasard 
est de I/M ou 0,25 pour toutes les questions. Par contre, si le format des questions 
varie (M = 2, 3, 4, 5), il sera necessaire d’effectuer la correction pour pouvoir com¬ 
parer la difficulty des items a partir d’une base commune. 

Le tableau 5.2 il lustre 1’importance de cette correction lorsque 1’on analyse 
des items comportant des nombres inegaux de choix de reponses. Dans ce tableau, 


Tableau 5.2 — Correction pour I'effet du hasard 


Sujet # 

Item Vrai/Faux 

Item a 3 choix 

Item a 5 choix 

1 

1 

1 

1 

2 

1 

1 

1 

3 

0 

0 

1 

4 

0 

0 

1 

5 

1 

0 

0 

6 

1 

1 

1 

7 

0 

0 

0 

8 

1 

1 

0 

9 

1 

1 

0 

10 

1 

1 

0 

Difficult p 

0,70 

0,60 

0,50 

Difficult p‘ 

0,40 

0,40 

0,38 

Ecart p-p' 

0,30 

0,20 

0,13 
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I’item vrai-faux est reussi par une proportion plus grande d’eleves que les items a 
3 oil a 5 choix de reponses. Toutefois, lorsque 1’on applique la correction de 1 ’equa¬ 
tion (5.2), on se rend compte que ces trois items sont a toutes fins pratiques de 
degres de difficulte identiques. De plus, alors que la proportion de reussite p laisse 
entendre qu’il s’agit d’items reussis par la moitie au moins des eleves, la proportion 
p’ revele des items beaucoup plus difficiles, dont le pourcentage de difficulte se 
situe aiitour de 0,4. 

1.2 Difficulte et distribution de l'item 

II existe un rapport etroit entre la difficulte d’un item et sa distribution. Lorsque I’item 
est soit trop facile, soit trop difficile, sa distribution devient asymetrique. Ce resultnf 
est particulierement evident dans le cas d’items dichotomiques. La figure 5.1 illustre 
ce rapport entre difficulte de I’item et symetrie de la distribution. 

Comme Fillustrent les trois distributions de cette figure, les items trop faciles 
ou trop difficiles possedent des distributions fortement asymetriques. Les items faciles 
permettent de bien discriminer parmi les sujets faibles et les items difficiles parmi les 
sujets forts. Si un sujet rate un item qui est reussi par 90 % de ses pairs, cet echec 
est beaucoup plus grave que s’il avait rate un item reussi par 30 % de ses pairs. C’est 
dans ce sens que Ton peut pretendre qu’un item facile permet de discriminer parmi 
les sujets faibles. Les sujets qui latent ce genre d’item sont done bien differents des 
autres. Le meme raisonnement vaut pour les items difficiles. Les quelques sujets qui 
reussissent de tels items manifestent une habilete tres superieure a celle du groupe, 
pour autant qu’il ne s’agisse pas d’une reussite due au hasard. Les items difficiles per¬ 
mettent done de selectionner les meilleurs elements d’un groupe. Parcontre, les items 
de difficulte moyenne (p = 0,5) discriminent de maniere symetrique : ils differencient 
aussi bien les sujets forts que les sujets faibles. C’est pourquoi cette categorie d’items 
est particulierement importante dans les evaluations ou 1 ’on souhaite differencier les 
sujets entre eux, quel que soit le score total obtenu. 

1.3 La selection des items selon leur difficulte 

La difficulte des items a une influence importante sur le score total du test. C’est pour¬ 
quoi le choix des items doit tenir compte de la proportion des repondants susceptibles 
de reussir ou d’echouer a ces items. Que cette proportion soit estimee a partir d’un 



p = 0,1 p = 0,5 P = 0,9 


Figure 5.1 — Indice de difficulte et symetrie de la distribution des resultats a un item 
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jugement d’expert avant I’examen ou qu’elle provienne des resultats d’une mise a 
I’essai prealable, elle aura un impact sur notre capacity a discriminer au niveau du 
score total. 

Prenons I’exemple de la figure 5.2. Les items y sont representes par des cercles 
disposes sur line echelle de coefficients de difficulty de 1 a 0 (de facile a difficile). 
Chaque sujet y est represente par une lettre associee a un score inscrit sur un drapeau 
place a des points correspondants de 1 ’echelle de difficulty des items. La figure decrit 
la distribution des indices de difficulty des 16 items du test #1 et du test #2. Tous 
deux ont une caracteristique en commun : ils ne possedent aucun item de difficulty 
intermediaire. Comment des individus, assez forts pour reussir des items faciles, mais 
trop faibles pour reussir des items ties difficiles, seront-ils mesures par ces tests ? 

En fait, ni le test #1, ni le test #2 ne contribueront de faijon significative a 
differeader de tels repondants, car aucun item ne fournit d’information a ce niveau. 
Dans le cas du test #1, l’eventualite la plus probable est qu’un sujet d’habilete inter- 
mediaire (A) reussisse tous les items faciles et rate tous les items difficiles. Dans son 
cas, le score total ne depend que des items faciles qu’il a reussis. Comme il n’y a 
aucun item de difficulty intermediaire entre le groupe des items faciles et le groupe 
des items difficiles, le test #1 ne fera pas de difference entre deux sujets d’habilete 
intermediaire, qu’ils soient en A ou en B. 

Le test #2 ne fera pas davantage de distinction entre les deux sujets, mais il est 
susceptible de leur accorder un score total plus eleve car il comporte une plus grande 
proportion d’items faciles que d’items difficiles. Dans le test #1, on retrouve 5/16 
(31 %) d’items faciles alors que dans le test #2, cette proportion passe a 11/16 (69 %). 

La figure 5.3 represente une situation mieux adaptee a la differenciation des 
capacites de ces deux personnes. On y constate un grand nombre d’items dont la dif¬ 
ficulty est voisine de la note de passage. Cette note de passage represente le seuil au- 
dessus duquel on decidera, par exemple, de retenir une candidature pour un emploi, 
de classer un eleve a un autre niveau ou de recommander une promotion. Une telle 
distribution des items permet d’accroitre la differenciation entre les sujets qui obtien- 
nent des resultats voisins de ce seuil d’exigence. A cause du grand nombre d’items 



Figure 5.2 — Difficulty des items et discrimination entre les sujets 
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Test #3 



Figure 5.3 — Discrimination au seuil de reussite 

dans le voisinage de la note de passage, de legeres differences se traduiront par des 
changements importants au niveau du score total. De cette fa<;on, le score total du 
sujet nous permettra de bien discriminer entre ceux qui out atteint et ceux qui n’ont 
pas atteint la valeur seuil. 

Le test #3 discrimine bien au seuil de reussite de 60 %. Le sujet C en dessous 
du seuil obtient un score bien different (25 %) du sujet D juste au-dessus (69 %). II 
y a en effet line grande proportion d’items qui mesurent 1’habilete de ces deux sujets, 
ce qui se traduit par la possibility de differences impoilantes au niveau du score total. 

La situation n’est pas la meme aux extremites de la distribution pour les sujets 
A et B et pour les sujets E et F. A et B ne peuvent reussir que des items faciles, alors 
que E et F peuvent reussir virtuellement n’importe quel item, facile ou meme ties 
difficile. Comme il n’y a pas d’items ni ties faciles, ni ties difficiles, des sujets tres 
f'aibles ou ti es forts sont susceptibles d’obtenir des resultats similaires. Mais dans une 
situation comme celle du test #3, est-il vraiment important de discriminer entre sujets 
qui auraient pu obtenir entre 90 % et 100 % ou entre 20 % et 30 % ? Sans doute non, 
puisque ces valeurs sont tres differentes du seuil de passage et que dans chaque cas 
individuel, il est clair que les sujets out satisfait ou non aux exigences minimales. 

1.4 La variance de l'item 

Alois que le coefficient de difficulte nous indique dans quelle proportion un item est 
reussi, la variance de l’item nous renseigne a quel point les resultats a cet item sont 
disperses ou non. Dans le cas d’items notes sur une echelle continue ou polychoto- 
mique, le calcul de la variance s’effectue au moyen de la formule habituelle (voir 
chapitre 2). Dans le cas d’items corriges de fa<;on dichotomique (0 ou 1), une formule 
simplifiee permet de calculer rapidement la variance. Elle est fournie par le produit 
de la proportion p des sujets ayant reussi l’item, par la proportion q des sujets ayant 
echoue a cet item (q valant /—/?): 

s 2 = pq (5.3) 

Par exemple, pour calculer la variance de l’item dichotomique du tableau 5 1, on 
procede de la maniere suivante : 

s 2 — pq — 0,6 x 0,4 = 0,24 


(5.4) 
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La valeur maxiniale de variance pour un item corrige de fa<;on dichotomique est egale 
a 0,25. Cette valeur n’est possible que lorsque le coeflicient de difficulte de 1’item 
vaut 0,5. Done, la dispersion d’un item dichotomique ne peut etre maximale que 
lorsque la moitie des sujets out reussi ou echoue a Litem. Tout autre coefficient de 
difficulte donne lieu a moins de dispersion entre les sujets. 

2. La discrimination de I'item 

Lorsque 1’on souhaite differencier entre eux les scores, la capacite de discrimination 
de Litem devient particulierement importante. En effet, dans un test nous souhaitons 
retrouver des items qui contribuent a departager les repondants qui out eu un score 
total eleve a Lexamen, de ceux qui ont eu un score total faible. Dans cette perspec¬ 
tive, un « bon » item est un item qui serait reussi par line plus grande proportion des 
repondants ayant obtenu un score eleve a Lexamen que par ceux ayant obtenu un 
score faible. Une autre caracteristique de tels items est la suivante : il y a une forte 
correlation entre la reussite a I’item et le score total au test. 

Un test n’a pas toujours pour objectif de differencier les repondants entre 
eux. Au contraire, il existe de nombreuses situations devaluation ou nous ne sou¬ 
haitons pas qu’il y ait de differences entre eux. C’est le cas de la pedagogie de la 
maitrise ou un objectif doit etre maitrise par une forte proportion des eleves (80 % 
a 90 %) avant de passer a Lobjectif d’apprentissage suivant. Puisque Lintention est 
que tous les eleves atteignent Lobjectif, la possibility de differencier les resultats 
perd de son importance. Tout au plus, Lenseignant veut-il discriminer entre ceux 
qui maitrisent Lobjectif et ceux qui ne le maitrisent pas. Dans ce contexte, les 
items qui aideront le plus Lenseignant a faire cette distinction sont les items qui 
auront ete les plus influences par son enseignement. Ces items devraient etre reus- 
sis par une forte proportion des eleves apres Lenseignement et donner lieu a une 
distribution asymetrique negative des resultats. Les quelques eleves qui rateraient 
ce genre d’item sont ceux qui auraient besoin d’explications complementaires ou 
d’un enseignement correctif. C’est le genre de discrimination que Lon veut obtenir 
en evaluation formative. 

Il existe trois principaux types de discrimination que nous verrons dans les 
sections suivantes : 

• L indice de discrimination D ; 

• les correlations biseriales (r Wi ) et de point-biseriales (r pH ,); 

• Lindice de sensibilite a Lenseignement S. 

2.1 L'indice de discrimination D 

L’indice de discrimination D (Findley, 1956) est simplement la difference entre Lin¬ 
dice de difficulte d’un item pour le groupe dit « fort» (p + ) et Lindice de difficulte 
pour le groupe dit « faible » (p). 

D=p + -p_ (5.5) 

Plus I’ecart D est grand, plus Litem discrimine entre les repondants ayant eu un score 
total eleve et ceux ayant eu un score total faible. 

Le groupe fort est constitue de ceux qui ont obtenu un score total qui les situe 
dans la categorie des 27 % superieurs el le groupe faible dans la categorie des 27 % 
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inferieurs (Kelley. 1939). Par exemple, dans un groupe comptant 30 repondants, on 
prendra les huit (0,27 x 30 = 8,1) resultats les plus eleves et les huit resultats les plus 
bas pour calculer les deux indices de difficulte /; + et p_. 


L’indice D peut prendre n’impoile quelle valeur entre - I et + 1. Une valeur 0 
signifie qu’un item est tout aussi bien reussi par ceux qui out eu un score total eleve 
que par ceux qui ont eu un score total faible. Une valeur negative signifie que I’item a 
ete reussi par une plus grande proportion de repondants qui ont eu un score total peu 
eleve a 1’ensemble du test. De telles valeurs soulevent des doutes quant a I’opportu- 
nite de conserver ce genre d’item dans le calcul du resultat total. Ebel (1965) propose 
les valeurs reperes suivantes pour interpreter le coefficient de discrimination D : 


0,40 et plus 
0,30 a 0,39 
0,20 a 0,29 
0,10 a 0,19 


item qui discrimine ties bien ; 
item qui discrimine bien ; 
item qui discrimine peu ; 
item-limite, a ameliorer; 


Moins de 0,10 item sans utilite reelle pour 1’examen. 

L’indice D est particulierement utile pour le calcul manuel de la discrimina¬ 
tion. En effet, il ne poile que sur la moitie (54 %) des donnees, ce qui diminue le 
travail de calcul. De plus, il donne des resultats fort semblables a ceux des methodes 
correlationnelles plus complexes L’indice D convient done tout a fait a I’analyse 
d’items de tests scolaires, a condition que les items soient suffisamment nombreux 
(30 ou plus). Lorsque le nombre d’items est restreint, 1’indice de discrimination 
est artificiellement gonfle du fait que chaque item compte pour une proportion trop 
importante du score total. 


Le tableau 5.3 presente un cas pratique de calcul de D par la methode de poin- 
tage. Dans une classe de 33 eleves, il y aura 9 eleves dans le groupe fort et 9 eleves 
dans le groupe faible, Un simple pointage des questions reussies par les eleves de 
chacun de ces groupes - sur une copie vierge de 1’examen ou sur le solutionnaire - 
permet de reperer en un coup d’oeil les items qui discriminent bien de ceux qui ne 
discriminent pas. Par exemple, les items 1 et 5 discriminent ties bien. Les items 2 et 
4 discriminent faiblement car ils sont presque aussi bien reussis dans chaque groupe. 
Enfin, I’item 3 presente un probleme serieux : il s’agit d’un item ties difficile reussi 
par un seul eleve appartenant au groupe faible. Il pourrait s’agir d’une reussite due a 
la chance, surtout s’il s’agit d’une question a choix de reponses. 

En plus du pointage, le tableau 5.3 presente les resultats du calcul des indices p 
et D. Dans le cas particular de I’indice p, une methode approximative a ete employee 
qui diminue la quantite de calculs. Alors que D est calcule par la difference de diffi¬ 
culte de chaque item pour chaque groupe, p est calcule en faisant la moyenne de ces 
difficultes Cette valeur est generalement une ties bonne approximation de la valeur 
de p calculee pour 1’ensemble des sujets. Il est done relativement simple, avec 18 
eleves sur 33, de calculer 1’indice de difficulte et I’indice de discrimination pour tous 
les items en une seule operation rapide 


Lorsque des items discriminent peu ou discriminent meme negativement, il 
peut etre necessaire d’etudier ces items de plus pres afin de mieux comprendre ce qui 
a pu se passer. Dans le cas de questions a choix de reponses, il est possible de consi- 
derer quel pourcentage d’eleves du groupe fort et du groupe faible a opte pour chaque 
choix. A partir de ces resultats, on peut alors calculer un indice de discrimination 
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Tableau 5.3 — Calculs des coefficients de difficulty et de discrimination jn = 33) 


Question # 

Groupe 
fort (/9) 

Groupe 
foible (/9) 

p 

D 

i)... 

HHH1 

vvv 

10/18 

(0,56) 

4/9 

(0,W 

2)... 

HHHH 

WHH 

15/18 

(0,83) 

1/9 

(0,1!) 

3)... 


V 


-1/9 

(-0,11) 

4)... 

'IH 

V 



5) . . 

JHHH 

vv 

9/18 

(0,50) 

5/9 

(0,56) 


non settlement pour la bonne reponse, mais aussi pour les leurres Ces coefficients 
de discrimination pour les leurres devraient etre tous negatifs, car ils sont censes etre 
choisis par une plus grande proportion d’eleves du groupe faible que du groupe fort. 

Le tableau 5.4 decrit l’analyse d’un item a quatre choix de reponses. L’item 
ne discrimine pas. En effet, 1’ indice D est nul car la bonne reponse (b) a ete choisie 
par autant d’eleves du groupe fort que du groupe faible C’est plutot le leurre (c) qui 
permet de discriminer entre ces deux groupes. L’indice D pour ce leurre est positif et 
relativement eleve (0,33). En fait, plus d’eleves du groupe fort ont choisi cette option 
de preference a la bonne reponse. Les deux autres leurres semblent fonctionner de 
maniere plus ou moins adequate : (d) est un leurre attrayant choisi par deux fois plus 
d’eleves du groupe faible et (a) n’est pas un leurre tres attrayant puisqu’un seul eleve 
du groupe faible l’a choisi. 

Face a des resultats tels que ceux du tableau 5.4, on peut se demander si l’op- 
tion (c) n’etait pas une reponse acceptable ou s’il n’y a pas eu d’erreur dans la cle 
de correction. Si ces explications ne conviennent pas, il serait utile de decouvrir les 


Tableau 5.4 — Discrimination des choix de reponses (bonne reponse = b) 


Question # 

Groupe 
fort (/9) 

Groupe 
foible (/9) 

p 

D 

1 .... 





o)... 


V 


-1/9 

(-0,11) 

M... 

vvv 

vvv 

4 


(0,00) 

cl... 

HH 

V 


3/9 

(0,33) 

i0 ... 

H 

HH 


-2/9 

(-0,22) 
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raisons pour lesquelles le choix (c) a ete choisi par tant d’eleves du groupe fort. Dans 
un examen de rendement scolaire, on peut toujours interroger les eleves a ce sujet, 
une fois 1’examen corrige. 


2.2 Les indices correlationnels de discrimination 

Les constructeurs de tests ont maintenant a leur disposition plusieurs logiciels qui 
effectuent 1'analyse des resultats. Certains de ces logiciels fournissent une analyse 
d’items comprenant le calcul d’un indice de discrimination. Cet indice de discrimina¬ 
tion porte sur 1’ensemble des donnees et repose sur le calcul d’une correlation entre 
le score a I’item et le score total a 1’examen. La correlation de Pearson, decrite a 
1 ’Annexe 1, permet de calculer de tels indices. 

Le calcul de la correlation de Pearson requiert des echelles continues de 
mesure. Lorsque I’item est corrige de maniere dichotomique (0, 1) ou encore de 
maniere ordinale (A, B, C, D, E ou encore 0, 1, 2, 3 et 4 points), le r de Pearson ne 
fournit pas une valeur exacte de la correlation entre deux variables. 

II existe plusieurs alternatives au r de Pearson. Elies sont decrites dans 1’en- 
cadre 5.1. Le choix entre chacune de ces methodes depend des postulats que 1’on 
pose sur la nature de 1’echelle de mesure employee pour chacune des deux variables 
en correlation. Trois categories d’echelle sont prises en ligne de compte : 1’echelle 
dichotomique, 1’echelle dichotomisee et 1’echelle continue. 

Ces considerations sur la nature de 1’echelle de scores sont importantes pour 
choisir la methode correlationnelle la plus appropriee au calcul de la discrimination 
ainsi que d’autres indices nous permettant d’approfondir notre analyse des items a 
I’examen. II est possible de resumer ces considerations par les cinq points suivants : 

1. Lorsque les deux variables sont continues, le r de Pearson doit etre utilise; 
lorsque l’une des deux variables est ordinale et ne se distribue pas normale- 
ment, il est preferable d’utiliser la con-elation r s de Spearman. 

2. Lorsque I’une des variables est continue et que 1’autre variable est reellement 
dichotomique (telle que le sexe), le calcul de la correlation de Pearson peut 
s’effectuer au moyen du coefficient de correlation point-biseriale. Cepen- 
dant, la valeur maximale de I ne peut etre atteinte que lorsque la variable 
dichotomique est symetrique, c’est-a-dire qu’il y a un nombre egal de sujets 
clans chaque categorie dichotomique. Dans un cas extreme ou 95 % des sujets 


ENCADRE 5.1 METHODES ALTERNATIVES DE CALCUL DE LA CORRELATION 


Echelles de mesure —» 

I 

Dichotomique 

Dichotomisee 


Dichotomique Dichotomisee Continue 


0b, s 


* pbts 


Continue 
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tombent dans 1’une des deux categories. Lord et Novick (1968) out demontre 
que la valeur du r Ml variait entre -0,5 et +0,5. 

3. Lorsque I’line des variables est continue et que 1’autre variable est une variable 
continue dichotomisee (telle qu’un item corrige 0,1), la correlation biseriale 
fournit une estimation de la correlation de Pearson qui aurait pu etre obtenue 
si la seconde variable n’avait pas ete dichotomisee. 

4. Lorsque les deux variables sont reellement dichotomiques, le calcul de la 
correlation de Pearson peut etre remplace par celui de la correlation (p (phi). 
Cependant, comme dans le cas de la correlation point-biseriale, la valeur maxi¬ 
male de 1 ne peut etre atteinte que lorsque les deux variables sont symetriques, 
c’est-a-dire que la moitie des sujets se retrouvent dans chaque categorie. 

5. Lorsque les deux variables sont dichotomisees, le calcul de la correlation 
tetrachorique est preferable. Le calcul de cette correlation est complexe et 
difficilement realisable, meme avec les logiciels disponibles (voir Joreskog & 
Sorbom, 1996). Dans le cas des items de difficult^ moyenne, la correlation 0et 
la correlation tetrachorique fournissent les memes resultats. La difference est 
plus importante dans les cas extremes ou des items ties faciles ou tres difficiles 
sont mis en correlation. Le calcul des correlations tetrachoriques est particu- 
lierement recommande si 1’on souhaite realiser une analyse factor idle sur la 
matrice des intercorrelations entre les items. Mis a part ce cas bien particulier, 
il semble qu’a defaut de pouvoir employer les correlations tetrachoriques, les 
correlations (p peuvent constituer une alternative pratique, quoiqu’imparfaite. 
L’encadre 5.2 fournit un exemple de calcul du coefficient (f). Parexemple, il pour- 

rait s’agir de determiner la correlation entre le fait d’avoir choisi « vrai ou faux » a une 
question et « vrai ou faux » a une deuxieme question. Dans 1’exemple, pj et p k represen- 
tent les proportions de ceux qui ont repondu « vrai» aux items j et k respectivement, 
alors que q t et q k representent les proportions de ceux qui ont repondu « faux » a ces 
deux items. Enf in, p Jt represente la proportion de ceux qui ont repondu « vrai » aux deux 
items (1 sujet sur 5, soit 0,2). La correlation calculee entre les deux items est relative - 
ment faible, considerant le petit nombre de sujets sur lequel se fonde la correlation (voir 
section 3.2 de ce chapitre pour un test de signification sur les valeurs de correlation). 


ENCADRE 5.2 CORRELATION 0 


Donnees 


Equation 


/ k 

1 1 P;t = 0,2 

0 0 p ( . = 0,6 

10 q. = 0,4 

0 0 



Pk = 0,2 

q k = 0,8 



Calcul 


(5.6) 
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L’encadre 5.3 illustre comment se calcule la correlation point-biseriale. Suppo- 
sons qu’il s’agisse ici de determiner si le fait d’etre un homme on une femme permet 
de differencier les sujets quant an score total X. La variable dichotomique /' est ici 
le sexe, ou p represente la proportion de femmes et q la proportion d’hommes. La 
variable continue est X ou X ets v represented respectivement la moyenne et 1’ecart 
type des resultats de tous les eleves, homines el femmes, au score total X et ou X\ 
represente la moyenne des femmes seulement (/' = / dans ce cas-ci). Enfin, p repre¬ 
sente la proportion de femmes ft = 1) et q la proportion d’hommes ft = 0). Notez 
bien : p represente toujours la proportion des sujets dont les scores entrent dans le 

calcul de X t . 

Dans ce cas-ci, une correlation moderee (0,73) indique que les femmes 
reussissent mieux au test que les homines et qu’il y a une association entre le 
sexe du sujet et la probability qu’il reussisse le test. Si cette correlation indi¬ 
quail une difference reelle entre homines et femmes, elle signifierait que le test 
inesure une habilete ou les femmes sont generalement meilleures. Toutefois, il se 
pourrait aussi qu’une telle correlation soit le fruit d’une mauvaise selection des 
items : elle indiquerait alors un biais dans le choix des items qui defavoriserait 
systeinatiquement les homines. Ce genre de preoccupation est particulierement 
important dans les tests nationaux et internationaux dont les resultats peuvent 
servir a prendre des decisions importantes sur les programmes d’etudes ou sur 
1’avenir des candidats (voir section 7 de ce chapitre sur I’etude du fonctionnement 
differentiel des items). 

L’encadre 5.4 presente un exemple de calcul de correlation biseriale sur des 
donnees identiques a celles de 1’encadre 5.3. Dans ce cas-ci, nous considerons que 
la variable i n’est pas une variable dichotomique comme le sexe, mais une variable 
dichotomisee, comme par exemple la reussite ou 1’echec a un item. Plutot que 
de chercher a determiner si le score total permet de discriminer entre homines et 
femmes, comme dans le cas precedent, nous chercherons a savoir si I’item permet 
de discriminer entre ceux qui ont eu un score total eleve et ceux qui ont eu un score 
faible au test. 


ENCADRE 5.3 CORRELATION POINT-BISERIALE 

Donnees 


Equation 


X 

5 

2 

1 

5 


-> + 
—> + 


-> + 


0 2 


P = 0,6 
q = 0,4 
X. = 4 
X = 3 

(X. - X) 




= ~~—rzr xl,22= 073 


pds 


1,67 


Calcul 


(57) 



216 


L'onalyse des items 


ENCADRE 5.4 CORRELATION BISERIALE 


Donnees 


Equation 


Calcul 


i X 

1 5 —> + p = 0,6 

1 2 -> + q = 0,4 

0 1 X, = 4 

1 5 —> + X — 3 

0 2 


(XW) p 

s x Y 


r L . = 


Y = 0,3867 
(4-3) 


1,67 


x 1,55 = 0,93 


(5.8) 


Dans cet exemple de calcul, la signification des symboles est la meme que 
dans le cas de la correlation point-biseriale, a uite importante exception pres : le 
calcul de la valeur de Y. Celle-ci correspond, comme 1’indique 1’encadre 5.5, a la 
hauteur de la courbe normale au point z correspondant a une densite de probabi¬ 
lity egale a p Dans notre exemple, la valeur de /; est de 0,6. Dans une distribu¬ 
tion normale centree reduite, une telle densite de probabilite correspond a un score 
z = 0,25. Eli effet, selon la distribution des probabilites de la loi normale, il y a 
six chances sur 10 d’obtenir un score egal ou superieur a 0,25 ecart type au-dessus 
de la moyenne. Cette probabilite nous est fournie par une table des valeurs de la 
loi normale (voir Table 1, Annexe 2) Cette meme table nous fournit egalement la 
valeur de la hauteur de la courbe normale au point z = 0,25. Pour cette valeur de 
Z, Y = 0,3867. 


Dans notre exemple, une correlation de 0,93 signifie que 1’item i permet de 
bien discriminer les sujets forts des sujets faibles. II s'agit la d’un item a conserver si 
notre intention est de discriminer entre les personnes. 


Lord et Novick (1968) ont demontre que la correlation biseriale obtenue est de 
20 % superieure au coefficient de correlation point-biseriale. L’equation (5.6) permet 
de transformer une correlation point-biseriale en correlation biseriale. 


s[pq 

/* =- r,. 

Ins y 


(5.6) 


Dans le cas des exemples des encadres 3 et 4, nous pouvons constater en effet que la 
relation exprimee par Fequation (5.6) nous permet de retrouver la correlation bise¬ 
riale a partir de la correlation point-biseriale. En effet, en substituant les valeurs dans 
I’equation (5.6), nous retrouvons : 



V0.240 

0,387 


x 0,73 s 0,93 
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Dans le cas de valeurs extremes de p ou q , Magnusson (1967) a demontre que la 
correlation biseriale pouvait etre jusqu’a quatre fois superieure a la correlation point- 
biseriale Ceci est dti au fait que la faible variance des items aff'ecte grandement la 
valeur maximum que peut prendre la correlation point-biseriale, qui est un equivalent 
algebrique du r de Pearson II est done primordial, lorsque Ton utilise un logiciel 
quelconque de calcul des indices de discrimination, de savoir quel type de correlation 
est employe pour calculer la correlation item-total. Enfin, en comparant les resultats 
publies sur les analyses d’items de tests commerciaux, il faut egalement tenir compte 
du fait que des indices de discrimination rapportes en correlations biseriales seront 
toujours plus eleves que les correlations point-biseriales, particulierement clans le cas 
de valeurs extremes de p ou q. 

L’encadre 5 6 fournit un exemple de calcul de la correlation par rangs de 
Spearman Kendall (1938) a egalement propose une formule de calcul de la corre¬ 
lation par rangs, mais celle-ci fournit des resultats numeriquement tres differents de 
ceux de Pearson, ce qui les rend difficilement compar ables. La formule de Spearman 
requiert que les resultats soient d’abord transformes en rangs et qu’un ecart entre 
les rangs occupes par la meme personne sur les deux variables soit calcule. Si une 
personne est la premiere sur Pune des deux variables, elle devraitetre la premiere sur 
1 ’autre variable si celles-ci sont effectivement en correlation. 

Dans Pexemple de Pencadre 5.6, la variable X represente le resultat d’un eleve 
a une question a reponse elaboree corrigee sur 10 points et la variable Y represente le 
resultat a une question corrigee sur 20 points. Une forte correlation entre ces deux ques¬ 
tions indiquerait que le correcteur a fait preuve d’une certaine coherence dans la correc¬ 
tion et/ou que les deux questions mesurent une caracteristique relativement homogene 

Selon Hotelling et Pabst (1936), la correlation de Spearman possede une effi- 
cacite relative de 91 % par rapport a la correlation r de Pearson. Ceci signifie qu’une 
correlation par rangs estime la correlation entre deux variables mesurees sur un echan- 
tillon de 100 sujets avec la meme precision qu’une correlation de Pearson portant 
sur 91 sujets lorsque les conditions pour le calcul d’une correlation de Pearson sont 
respectees. L’avantage particulier de la correlation de Spearman est de permettre une 
bonne estimation de la correlation lorsque les postulats de base de la correlation de 
Pearson ne tiennent pas, comme e’est le cas lors d’une distribution de rangs. Elle est 
done recommandee chaque fois que Pune des deux variables ne se distribue pas nor- 
malement ou encore ne rencontre pas les conditions d’une echelle a intervalles egaux. 
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ENCADRE 5.6 CORRELATION PAR RANGS DE SPEARMAN 

Donnees 



X —> rang 

V — > rang 

D, 


5 -> 4 

15 —>4 

0 


1 -> 1 

6 -> 1 

0 


3 -> 3 

1 2 — > 2 

1 


2 — > 2 

1 3 — > 3 

-1 

Equation 

Colcul 

7 -r 5 

19 —>5 

r s = ] - 

r - 1 — ■ 

0 

4 

X D, 2 = 2 

6 X D, 2 

n 3 - n 

6x2 - 0,90 



5 

125-5 


Les coefficients de correlation par rangs sont particulierement utiles lorsque 
I’on veut s’assurer du degre de concordance entre juges. Deux juges qui n’ordonne- 
raient pas les sujets de la menie maniere lors d’une competition ne contribueraient 
pas a departager un vainqueur. La correlation de Spearman est tout a fait indiquee 
lorsque 1 ’on cherche a determiner le degre de concordance entre juges pris deux a 
deux. Lorsque Ton veut evaluer le degre global de concordance entre plus de deux 
juges, le W de Keiulall (Siegel et Castellan, 1988) - une autre mesure de correlation 
par rangs - permet d’estimer au moyen d’une seule valeur a quel point chaque juge 
differe du rang moyen octroye par I’ensemble des juges (voir chapitre 4 section 2 sur 
la validite). 

2.3 Le choix du bon indicateur de discrimination 

II existe done une grande variete d’indicateurs correlationnels s’ajoutant a 1 ’indice de 
discrimination D pour determiner si un item permet de differencier les sujets obte- 
nant un score total eleve de ceux obtenant un score faible. Plusieurs recherches ont 
demontre une forte correlation entre ces indicateurs (Englehart, 1965 ; Beuchert et 
Mendoza, 1979 ; Findley, 1956 ; Oosterhof, 1976). Les plus importantes differences 
se produisent pour les items dont les coefficients de difficulty comportent une valeur 
extreme (pres de 0 ou de 1 ). 

Crocker et Algina (1986, p 319) ont formule cinq recommandations pour faci- 
liter le choix des indices de discrimination disponibles pour items dichotomiques : 

1. Lorsque les items sont de difficulty moderee, 1’ensemble des methodes se 
valent. Les methodes correlationnelles ont cependant 1’avantage de permettre 
un test de signification statistique. Un tel test n’existe pas pour 1’indice D. 

2. Lorsque 1’objectif est de choisir parmi des items se situant a chaque extre¬ 
mity du spectre des niveaux de difficulty, la correlation biseriale devrait etre 
employee. 
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3. Si I'on suspecte que les futurs echantillons de sujets auxquels sera administre 
le test seront d’habiletes i'ort differentes des sujets sur lesquels le test a ete mis 
a 1’essai, il est preferable d’utiliser la correlation biseriale. 

4. Si 1’on s’attend a ce que le test soit utilise avec des sujets de nienie niveau 
d’habilete, la correlation point-biseriale semble la mieux indiquee. 

5. Lorsque l’item et la variable critere sont cotes de maniere dichotomique (c’est 
le cas lorsque le score total est transforme en « maitrise/non mattrise »), le 
coefficient tetrachorique devrait etre employe surtout si item et critere pren- 
nent des valeurs extremes. Toutefois, il est tres difficile de calculer cette valeur 
et plusieurs s’accommoderont du coefficient phi (d). 

3. Rapport entre difficulte et discrimination 
de I'item 

Peu importe le type d’indicateur de discrimination employe, lorsque I’item est trop 
facile ou trop difficile, I’estimation de sa contribution a la differenciation des resultats 
au niveau du score total devient risquee. Tant 1’indice D que les indices correlation- 
nels sont, en effet, influences par la difficulte de I’item. 

Parfois, les constructeurs de tests sont places face a un dilemme. D’une part, ils 
veulent obtenir un score total qui leur permette de differencier les repondants. D’autre 
part, ils ne veulent pas renoncer a poser des questions faciles ou difficiles, car elles 
permettent de discriminer ceux qui se situent aux extremites de la distribution de 1’apti¬ 
tude mesuree. Nous avons vu dans la section 1.1 que les items difficiles, menie s’ils ne 
permettent pas de discriminer adequatement parmi tous les repondants, favorisent une 
meilleure discrimination parmi les plus forts. De menie, les items faciles nous permet¬ 
tent de bien discriminer parmi ceux qui ont obtenu les resultats les plus foibles. 

Qu’en est-il lorsque nous souhaitons discriminer aussi bien parmi les eleves 
forts que parmi les eleves faibles, comme c’est souvent le cas en education lors de 
1'evaluation sommative ou en psychometric avec les tests d’aptitude 7 Dans de tels 
cas, les items faciles ou difficiles jouent un role plus complexe et c’est au concepteur 
de s’interroger sur ce role en function des objectifs d’evaluation. L’analyse d’items 
peut Paider a se poser les questions pcrtinentes quant au role joue par chaque item 
ainsi que sur les moyens appropries pour ameliorer la qualite de 1’instrument de 
niesure. 

3.1 Le choix du « bon » item 

Un « bon » item nous permet d’atteindre notre objectif d’evaluation. Cet objectif 
sera atteint en choisissant des items de difficulte et de discrimination adequates. La 
figure 5.4 illustre comment la selection des meilleurs items peut s’elfectuer en fonc- 
tion de leur difficulte el de leur discrimination (indice D) 

L’abscisse de la figure 5.4 represente le coefficient de difficulte de I’item : il 
ne peut prendre que des valeurs positives de 0 a 1. L’ordonnee permet de situer les 
items en fonction de leur indice de discrimination D : il peut prendre des valeurs de 
- 1 a + 1 Etant donne la relation entre D et p. certaines combinaisons de valeurs sont 
impossibles : un item trop facile ou trop difficile ne peut avoir une valeur de discri¬ 
mination elevee. C’est ce qu’indiquent les banes obliques en tirets. Elies delimitent 
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les regions du plan cartesien ou les couples de valeurs p et D ne peuvent se produire. 
Enfiii, une serie de droites horizontales indiquent les seuils critiques de D suggeres 
par Ebel (1965). 

Une fois que nous prenons en consideration I’ensemble de ces facteurs, il est 
possible de mieux interpreter la signification des valeurs de p et de D pour chaque item. 
La figure 5.4 presente 10 coinbinaisons differentes de difficulty et de discrimination 
d'items. Voici quelques interpretations possibles de chacune de ces 10 situations : 

1. L’item I devrait etre retenu. II represente Eitem ideal pour differencier les 
sujets : difficulty moyenne et discrimination clevee. 

2. L’item 2 merite aussi d’etre retenu. C’est un item legerement difficile, mais qui 
discrimine assez bien. II se situe au-dessus du seuil recommande par Ebel ou 
une revision serait necessaire. 

3. L’item 3 se situe dans la zone de revision. II discrimine peu, mais il faut tenir 
compte que c’est egalement un item tres difficile. En fait, sa valeur de dis¬ 
crimination se situe tres pres du maximum possible a ce niveau de difficulty. 
Faut-il alors vraiment reviser cet item ? Non, car cet item nous permet de dis- 
criminer au maximum de ce a quoi 1’on peut s’attendre a ce niveau 

4 L’item 4 merite une attention particuliere. II se situe dans la zone de revision 
et de plus il est tres en deca du maximum qu’il peut atteindre. 

5. L’item 5 presente un cas similaire a 1’item 4. Item de difficulty moyenne, il n’a 
qu’une faible discrimination. S’il s'agit d’un item a clioix de reponses, il serait 
interessant de revoir la distribution des clioix de reponses de chaque leutre, ainsi 
que de calculer un coefficient de discrimination par leurre (voir section 2.1). 
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Figure 5.4 — Rapports entre discrimination et difficulty de I'item 
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6 . Si Pon ne se liait qu’a la discrimination, I’item 6 devrait etre rejete immedia- 
tement. C’est un item qui ne peut discriminer car il est reussi par la presque 
totalite des repondants (90 % et plus) Ce n’est pas I’item qu’il faut revoir, 
mais plutot 1’opportunite de I’inclure. Si Ton souhaite mesurer des prerequis 
juges essentiels on I’atteinte d’objectifs minima, alors cet item merite d’etre 
conserve. II nous faut accepter cependant qu’un tel item ne nous permettra pas 
de differencier tous les examines, mais qu’il pourra nous etre fort utile pour 
identifier les plus faibles. 

7. L’item 7 ne seil a rien. II ne discrimine pas du tout parmi les examines bien 
qu’il s’agisse d’un item de difficulte moyenne. On ne peut done imputer sa 
faible discrimination au fait qu’il soit trop facile ou trop difficile. II devrait 
etre elimine car, avec ou sans cet item, les resultats ne sont guere differents. 

8 . L’item 8 merite egalement d’etre retire du test. C’est un cas similaire a I’item 7 
avec un inconvenient en plus : s’il est conserve, il dimfnuera les differences 
entre les examines, car il discrimine de maniere negative. Cet item envoie done 
un message contradictoire par rapport au message envoye par 1’ensemble des 
items du test. 

9. L’item 9 est un cas particular de discrimination negative. C’est un item tres 
difficile qui est mieux reussi par ceux qui out les moins bons resultats au test. 
Il peut s’agir de quelques individus qui out repondu au hasard. 

10. L’item 10 est un cas grave de discrimination negative. De difficulte moyenne, 
il est, coniine I’item 9, reussi par un plus grand nombre de membres du 
groupe « faible » A la difference de I’item 9, il n’est pas possible d’attribuer 
un tel resultat a une reussite au hasard, car il ne s’agit pas ici de quelques 
patrons de reponses aberrants. Ce genre d’item suggere plutot une erreur dans 
la grille de correction ou encore un probleme dans fapprentissage anterieur 
des examines. 

La figure 5.4 nous permet d’articuler les indices de difficulte et de discrimina¬ 
tion dans I’analyse des items a un test. Quoique I’exemple fourni vaille pour 1’indice 
de discrimination D. le meme type d’analyse peut etre realise avec les indices cor- 
relationnels. Dans ce cas, les valeurs maximales de correlation changent egalement 
cn fonction de I’indice de discrimination et un test de signification sur les valeurs de 
correlation remplace les seuils pratiques determines par Ebel (1965). 


3.2 Niveau de signification des indices correlationnels 

DE DISCRIMINATION 


Lorsqu’un indice correlationnel de discrimination est faible. il est important de deter¬ 
miner si la correlation entre I’item et le score total est significativement differente de 
0 ou si elle aurait pu etre obtenue au hasard. Lorsque le nombre de sujets est supe- 
rieur a 50, Magnusson (1967) a demontre que 1’ecart type de la distribution des r de 
Pearson autour d’une moyenne de 0 etait estime par I’equation suivante : 


1 

V/v -1 


(5.7) 


ou .s 1 ,. est 1’ecart type de la distribution de r et N le nombre de sujets avant servi au 
calcul de la correlation. 
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De l’equalion (5.7) on peut retenir que plus l’echantillon est petit, plus grande 
devra etre la correlation entre deux variables avant qu’elle ne puisse etre consideree 
comme significativement dilferente de 0. Par voie de consequence, plus le nombre de 
repondants a un test est petit, plus l’indice de discrimination devra etre grand avant que 
Ton considere qu’un item contribue a difterencier les sujets quant a leur score total. 

Le meme ecart type est utilise pour determiner le degre de signification des 
correlations point-biseriale et 0 Dans le cas de la correlation biseriale, I’ecart type de 
la distribution est fourni par la formule developpee par Kurtz et Mayo (1979) : 


5 


'bis 


y/pq/(N-l) 

y 


(5.8) 


ou Y represente la valeur de l’ordonnee de la courbe normale au point z correspondant 
a une densite de probability p (voir Encadre 5.5) ; p est la proportion de repondants 
qui out reussi l’item ; q represente la proportion de ceux qui ont echoue a I’item (1- 
p). Enfin, N represente le nombre de repondants ou de couples d’observations. 

Dans tous les cas, 1’ecart type calcule par les equations (5.7) ou (5.8) sert a 
determiner un intervalle de confiance de 95 % ou 99 % autour de la moyenne 0. Si la 
valeur de correlation calculee se situe a l’interieur de cet intervalle, e’est qu’elle n’est 
pas significativement differente de 0 au seuil clioisi de signification (0,05 ou 0,01). 

La figure 5.5 fournit un exemple d’un test de signification d’une valeur de 
correlation. Supposons que nous soyons interesses a determiner a partir de quelles 
valeurs une correlation calculee sur un echantillon de 82 personnes est significative¬ 
ment differente de 0. Nous devons d’abord estimer la valeur de dispersion des corre¬ 
lations autour de /• = 0 selon Lequation (5.9) : 


_l __ \_ 

V82 - 1 " 9 


0,11 


(5.9) 


Les valeurs comprises entre ± /,96i r determinent un intervalle de confiance a l’inte¬ 
rieur duquel se situent 95 % des valeurs de correlations qui peuvent se produire au 
hasard entre 82 couples de donnees pour lesquels il n’y a pas de coixelation. Si la 



Figure 5.5 — Intervalle de confiance a 95 % d'une valeur de correlation 
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valeur observee de correlation excede les limites de cet intervalle, alors nous pou- 
vons la considerer comme significativement differente de 0 avec tin risque d’erreur de 
type I de 0,05. Dans le cas qui nous interesse, cet intervalle est compris entre ± 0,22. 
Une correlation de 0,34 serait done consideree comme significativement differente 
de 0. 


3.3 Calculs pratiques des indices de difficulty 

ET DE DISCRIMINATION 


Lors de l’analyse des items d’examens de rendement scolaire, il n’est pas toujours 
necessaire d’employer tout farsenal des outils statistiques a notre disposition. De 
plus, il n’est pas toujours possible, ni simple, d’avoir recours a tin programme d’ordi- 
nateur. Enfm, I’analyse des items necessite que les donnees de chaque individu soient 
entrees pour chaque item, ce qui peut representer line tache considerable en soi. 

Pour 1’avenir previsible, il y a de bonnes raisons de croire que 1’analyse des 
resultats a un examen se fera encore de fagon ailisanale. Toutefois, elle peut etre 
plus efficace si nous savons exploiter les rapports qui existent entre les principaux 
indicateurs statistiques. C’est ainsi que nous avons demontre dans la section 2.1 que 
nous pouvions estimer I’indice de difficult^ et 1 ’indice de discrimination a partir des 
resultats d’environ la moitie des sujets. Ceci constitue un allegement important des 
efforts de calcul. 

II est possible d’aller encore plus loin et d’utiliser les proprietes des indices de 
discrimination pour estimer I’ecart type des resultats et la coherence interne d’un test. 
En effet, plus la discrimination moyenne des items est elevee, plus on peut s’attendre 
a une grande dispersion des resultats et a une forte intercorrelation entre les items, 
comme nous favons demontre au chapitre 3, section I. 

Wiersma et Jurs (1990) out demontre que la somme des indices de discrimina¬ 
tion est environ 2,45 fois plus grande que I’ecail type des scores totaux. On peut done 
estimer I’ecart type au moyen de 1’equation suivante : 

(5.10) 



De la meme maniere, Wiersma et Jurs proposent les alternatives suivantes au calcul 
des valeurs de KR20 et KR2I : 


KR20 = 

7-1 


6^ P9 


(5 11) 


KR21 = 


7-1 


6X(j-X) 


(5.12) 


Dans les deux equations precedentes, j represente le nombre d’items. Pour calculer 
1 ’ecart type, nous n’avons besoin que de la somme des indices de discrimination 
D. Poui^calculer KR20 et KR2J, nous avons besoin aussi de la moyenne des scores 
totaux X. En utilisant les formules precedentes, nous pouvons done realiser une ana¬ 
lyse fort complete des resultats a un examen a partir des resultats de la moitie des 
eleves settlement. 
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4. Indices de discrimination 
pour la mesure criteriee 

Les indices de discrimination que Ton vient de voir conviennent particulierement aux 
tests qui ont pour objectif de differencier les repondants entre eux. Ce n’est pas I’ob- 
jectif poursuivi par tous les tests. Dans le cadre d’une pedagogie de maitrise ou d’une 
evaluation formative, nous ne nous attendons pas a ce que l’instrument de mesure dis- 
crimine egalement entre tous les eleves. Parcontre, nous voulons savoir s’il permet de 
faire la difference entre ceux qui maitrisent et ceux qui ne maitrisent pas un objectif 
au seuil de reussite lixe a l’avance. 

Les items les plus utiles en mesure criteriee sont ceux qui sont les plus sen- 
sibles a l’enseignement. Si I’enseignement a ete profitable, le degre de difficulte de 
ces items devrait changer considerablement. De plus, lorsque nous devons nous pro- 
noncer sur la maitrise d’un objectif, ces items devraient nous permettre de prendre des 
decisions appiopriees. Enfin. si les items en question proviennent d’un meme domaine 
d’items, les repondants devraient conjointement reussir ou echouer a ces items. 

4.1 Indice de sensibilite a l'enseignement 

Cox et Vargas (1966) ont propose I’indice de sensibilite a l’enseignement pour deter¬ 
miner quels items sont les plus affectes par l’enseignement. Cet indice est calcule en 
faisant la difference entre la difficulte d’un item avant (p pn ) et apres l’enseignement 
(P n ,J ■ 

S = p - p . (5.13) 

Plus I’ecatl S est eleve, plus la mesure porte sur des items permettant de mesurer l’ef- 
fet de l’enseignement. Moins S est eleve, moins l’item est utile car il a porte sur une 
question qui etait tout aussi bien reussie avant I’enseignement qu’apres Un tel item 
ne permet pas de discriminer I’effet de I’enseignement. 

Si un item est reussi au pretest par 23 % des eleves et qu’il est reussi au post¬ 
test par 82 %, la valeur de sensibilite a I’enseignement S = 0,82 - 0,23 = 0,59. Un 
tel resultat peut etre interprete coniine indiquant que l’item discrimine bien parmi les 
eleves qui ne reussissaient pas i’item avant l’enseignement et les eleves qui le reus- 
sissent maintenant. 

Une valeur negative de S ou une valeur de 0 peuvent etre interpretees de deux 
famous : 

1. L’item ne convient pas, car il ne porte pas sur l’enseignement. 

2. L’enseignement n’a eu aucun effet sur la reussite des eleves. 

4.2 Discrimination au seuil de maitrise 

Brennan (1972) a propose un indice similaire a celui de Findley (1956) pour le calcul 
de la discrimination de l’item au seuil de maitrise. Cet indice B est V equivalent de 
l’indice D sauf que les groupes forts et faibles sont remplaces par les groupes qui ont 
atteint ou non le seuil de maitrise au score total. L’indice B peut etre calcule de la 
maniere suivante : 


H = P,, ~P MI 


(5.14) 
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Tableau 5.5 — Organisation des donnees pour le calcul du coefficient de Brennan 


Item 


Reussi 
a + b 

tcboue 
c + d 


■*3- 

II 

C3 

oo 

II 

c = 12 

d=2 


Non maitrise Moitrise 

o+ c b + d 


Test 


p M represente 1 ’indice de difficulte de 1 ’item pour ceux qui out atteint le seuil de mai- 
trise au test entier et p NM represente I’indice de difficulte de 1 ’item pour ceux qui ne 
I’ont pas atteint. B peut varier de - 1 a + 1. Un indice negatif signifie que I ’item ne 
discrimine pas dans la meme direction que les autres items au test. Un indice positif 
indique quel pourcentage d’eleves dans le groupe « maitrise » a mieux reussi 1 ’item 
que dans le groupe « non-maitrise ». 

Le tableau 5.5 presente (’organisation des donnees pour le calcul du coefficient 
B. L’item de ce tableau discrimine bien au seuil de maitrise puisque, par rappoil au 
groupe « non-maitrise », il y a 55 % en plus d’eleves du groupe « maitrise » qui le 
reussissent. C’est certainement un item adequat pour differencier au seuil de maitrise. 
Ce seuil est determine prealablement a l’examen. Un enseignant peut decider qu’un 
eleve doit reussir 80 % des items d’un menie domaine pour demontrer qu’il maitrise 
un objectif. L’eleve qui obtient 80 % et plus au test sera considere comme appartenant 
au groupe « maitrise », alors que les autres eleves (moins de 80 %) feront partie du 
groupe « non-maitrise ». C’est de cette maniere que les sujets du tableau 5.5 out ete 
repartis en deux groupes de maitrise et de non-maitrise : 16 n’ont pas reussi au moins 
80 % des items du test (a+c = 16) et 10 eleves (b+d = 10 ) out reussi 80 % des items 
et plus Parmi les 10 eleves qui maitrisent 80 % et plus des items du test. 8 sur 10 
(b/b+d = 8 / 10 ) out egalement reussi 1 ’item pour lequel nous calculous le coefficient 
de Brennan. Cependant, 4 des 16 eleves qui n’ont pas maitrise 80 % des items out 
egalement reussi cet item particulier. Le coefficient de Brennan calcule 1’ecart entre le 
pourcentage de reussite de 1 ’item pour ceux qui out atteint le seuil de maitrise au test 
entier et le pourcentage de reussite pour ceux qui ne I’ont pas atteint. 


Pm = 

Pm = 


8 


b+d 8+2 
a 4 


= 0,8 

= 0,25 


a+c 4+12 
B =Pm ~Pm = 0,8 - 0,25 = 0,55 


(5.15) 

(5.16) 

(5.17) 


4.3 Equivalence des items appartenant a un meme domaine 

La preparation d’instruments de mesure criteriee nous amene a construire des items 
f'aisant partie d’un meme domaine. L’analyse des items devrait nous permettre de 
verifier a posteriori si tel est bien le cas. Les repondants devraient conjointement 
reussir ou echouer des items appartenant a un meme domaine, ce qui devrait se tra- 
duire par un manque d’independance dans la distribution conjointe de ces deux items. 
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Un test du y} pennet de verifier si la distribution des frequences conjointes est signifi- 
cativement differente de celle a laquelle on pourrait s’attendre si une telle distribution 
s’etait produite aleatoirement. Le tableau 5.6 presente un exemple de donnees servant 
au calcul du x 2 entre deux items. 

II y a deux fagons de calculer la valeur du y 2 au tableau 5.6. La premiere, 
plus generale, s’applique a toutes les situations. El le necessite le calcul de frequences 
theoriques FT (inscrites dans les ellipses de chaque cellule du tableau) qui se pro- 
duiraient s’il n’y avait aucune association entre les deux items. Plus les frequences 
observees FO (a, b, c, d) sont difierentes des frequences theoriques FT, plus il est 
permis de croire que les items ne sont pas independants entre eux, mais qu’ils sont 
associes et mesurent le meme domaine. 


Le calcul des frequences theoriques est fort simple. II s’agit de trouver, pour 
chaque cellule du tableau de contingence, la frequence qui respecte les proportions 
des totaux marginaux. Ainsi, si 20 eleves sur 30 ont reussi I’item A et que 18 eleves 
sur 30 ont reussi I’item B, alors 20/30 des 18 eleves de 1’item B devraient reussir 
conjointement les items A et B, soit 12 eleves. Les autres frequences theoiiques se 
deduisent par soustraction. Pour trouver les frequences theoriques de la cellule a, 
il suffit de soustraire la frequence theorique 12 du total marginal de cette rangee : 
20 - 12 = 8. La somme des frequences theoriques pour chaque rangee et chaque 
colonne doit correspondre aux totaux marginaux. 

Une fois elevee au cane et divisee par la frequence theorique, la somme des 
ecarts entre frequences theoiiques et frequences observees nous donne la valeur du 
yj. L’equation (5.18) resume le calcul du yj selon cette methode. 


, v ( FT-FO) 1 
^— 


(5.18) 


Dans le cas de 1’exemple du tableau 5.6, la valeur calculee du y 2 serait : 

x2=I ^ + 02^ + (6-4^ + (i-b):^^ 


8 


12 


(5.19) 


Lorsque chaque item ne peut prendre que deux valeurs, 1’equation (5.18) peut etre 
remplacee par 1’equation (5.20) ou n’interviennent que les frequences observees : 


T = 


N(ad - bcf 


(a + b)(c + cl)(b + d)(ci + c) 


(5.20) 


Tableau 5.6 — Association entre deux items A et B 


Item A 


Reussi 


Echoue 


/3\ 1=3 

n n 

loo j ov 

b= 14 

c= 6 

c 

d= 4 

(FT70 


Echoue Reussi 

a + c= 12 t + d = 18 


Item B 
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Chaque lettre correspond aux cellules du tableau 5.6. En substituant chaque lettre par 
la frequence observee correspondante, on retrouve la meme valeur de y 1 calculee par 
I’equation (5 18). En effet. 


30(24 - 84)- 
20 x 10 x 12 x 18 


2,50 


(5.21) 


Comment interpreter la valeur calculee du ? Pour cela, il est necessaire de consul- 
ter une table des probability des valeurs du y 2 pour un degre de liberte (voir Table I, 
Annexe 2). La valeur critique pour a= 0,05 etant de 3,84, nous savons qu’une valeur 
de 2,5 a plus de 5 chances sur 100 de se produire au liasard. Comme la valeur obte- 
nue est inferieure a la valeur critique, nous pouvons considerer ces deux items comme 
independants, done sans association entre I’un et I’autre. II serait done difficile de 
considerer ces deux items comme provenant du menre domaine. 

Lorsque le nombre de categories de chaque item excede deux, I’equation 
(5.20) ne permet pas de calculer la valeur du y 2 . II faut alors avoir recours a I’equa¬ 
tion (5.18). Le nombre de degres de liberte est egal a [(c - I) (r - 1))), on r et c 
representent le nombre de categories de I’item A (rangees) et de I’item B (colonnes). 

En regie generate, il est preferable d’employer I’equation (5.18), D'abord, 
parce qu’elle permet de decouvrir dans quelle(s) cellule(s) les differences entre fre¬ 
quences observees et frequences theoriques sont les plus grandes. Ensuite, parce que 
la valeur du y 2 est biaisee lorsque plus de 20 % des frequences theoriques sont infe- 
rieures a 5 ou encore lorsqu’elles sont inferieures a 1 ou egales a 0. 

11 n’est pas toujours necessaire de calculer un y 2 pour se faire une opinion a 
propos du degre de concordance entre deux items A et B. Harris et Pearlman (1977) 
out propose de calculer une proportion d’accord, tel que (b+c)/n. C’est un rnoyen 
simple de calculer quelle proportion d’eleves a fourni le meme resultat aux deux 
items. Dans le cas de l’exemple du tableau 5.6, la proportion d’accord est de 20/30, 
soit 0,67. Cette proportion signifie que 33 % des eleves out reussi un item sans avoir 
reussi I’autre. II s’agit d’une proportion suffisamment elevee pour ne pas considerer 
les deux items comme provenant du meme domaine. 


Harris et Pearlman (1977) out egalement propose un moyen de verifier si deux 
items sont de meme difficulty. En effet, si deux items sont rediges a partir du meme 
objectif d'apprentissage et qu’ils out lait l’objet en classe d’efforts de preparation com¬ 
parables, ceux-ci devraient etre de difficultes sensiblement identiques. Un test de signifi¬ 
cation sur la difference entre la difficulty de deux items devrait nous permettre de decider 
si un ecart est suffisamment grand pour considerer les items comme apparlenant a deux 
domaines differents ou s’ilest possible que la difference observee soit purement fortuite. 

Pour tester ces possibilites, Harris et Pearlman proposent le test du y 2 suivant 
avec un degre de liberte : 


= 


~l)~ 

b+c 


(5.22) 


II est possible d’appliquer la procedure proposee par Harris el Pearlman (1977) a 
I’exemple du tableau 5.6. Les items A et B out respectivement 20/30 et 18/30 comme 
indices de difficulty. Une difference de 2/30 est-elle suflisante pour considerer que les 
deux items out des degres de difficulty differents ou cel ecart peut-il etre attribuc aux 
effets de I’echantillonnage ? Pour repondre a cette question, calculous la valeur de y 2 
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selon l’equation (5.22) en substituant b et c par leurs valeurs respectives. Ceci nous 
fournit le resultat suivant : 


([14 - 6| - l) : 
X 14 + 6 


2,45 


(5.23) 


La valeur calculee est inferieure a la valeur critique de 3,84 pour un niveau de signi¬ 
fication a = 0,05. II faut done considerer que les items A et B ne sont pas de degres 
de difficulty signilicativement differents, puisqu'il y a plus de cinq chances sur 100 
qu’un ecart de 2/30 entre les deux items soit du aux fluctuations d’echantillonnage. 

II peut sembler paradoxal que deux items que nous avons declares comme 
appartenant a des domaines differents possedent des degres de difficulty equivalents. 
En fait, si deux items appartiennent au meme domaine, ils seront necessairement de 
meme degre de difficulty. Par contre, deux items de domaines differents, tels que les 
items A et B au tableau 5.6 peuvent etre de degres de difficulty semblables. Meme en 
appartenant a des domaines differents, rien n’empeche qu’ils puissent etre reussis par 
des propoilions egales de sujets. Ce serait le cas, par exemple, d’un item de geogra¬ 
phic et d'un item de frantjais reussis par 12 eleves sur 24 (50 %). 

En guise de conclusion, soulignons que ce dernier test de Harris et Pearlman 
ne nous permet pas de nous prononcer de maniere certaine quant a savoir si deux 
items appartiennent au meme domaine. En effet, comme nous venons de le voir, I’ab- 
sence de differences significatives des degres de difficulty de deux items constitue line 
condition necessaire, mais non suffisante pour qu’ils appartiennent au meme domaine. 


5. Les indices de fidelite et de validite 

En plus des indices de difficulty et de discrimination, il existe deux autres indices 
fort utiles lors d’une analyse d’items : V i nil ice de fidelite et Vindice de validite. La 
contribution respective de cliaque item a la fidelite et a la validite des resultats au test 
entier peut nous aider a optimiser notre instrument de mesure en ne choisissant que 
les items les plus pertinents pour nos objectifs devaluation. 

Ces indices nous sont donnes par la correlation item-total de cliaque item pon- 
deree par son ecart type. La coirelation item-total est calculee soit avec un critere 
interne (X = score total au test), soit avec un critere externe (P = score total au cri¬ 
tere). Dans le premier cas, nous obtenons findice de fidelite. Bans le second cas, il 
s’agit de 1 ’indice de validite. 

L’indice de fidelite est done fourni par le produit s,r m ou s f est 1’ecart type de 
l’item et r lX est la correlation item-total. L’indice de validite se calcule de la meme 
maniere par le produit sc jy . Dans ce dernier cas, r jY represente la correlation item-ciitere. 


5.1 Analyse des items a partir des indices de fidelite 

ET DE VALIDITE 

La figure 5.6 presente la forme que pourrait prendre une analyse d’items visant a 
optimiser la validite et la fidelite d’un test a partir de ces indices. En situant cliaque 
item en fonction de son indice de fidelite et de son indice de validite dans un plan 
cartesien, il devient relativement simple de choisir ceux qui contribuent a accroTtre 
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Figure 5.6 — Selection des items en fonction des indices de fidelite et de validite 
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-Inriice de fidelite —►- 


simultanement la fidelite du score total au test et sa validite par rapport au critere 
choisi. Les items 1 a 6 presentent a cet egard six situations caracteristiques : 

1. L’itein I est Litem ideal II possede des indices eleves de fidelite et de validite. 
C’est certainement le genre d’item que nous souhaiterions conserve!'. 

2. L’item 2 est un item fidele, mais de validite moyenne. II contribue a la pre¬ 
cision des resultats au test, mais peu a leur pertinence par rapport au critere. 

3. L’item 3 est un item sans validite. Si la fidelite du test etait notre seul souci, on 
pourrait opter pour le conserve!'. Mais a quoi sert-il de conserver un item qui 
n’est pas valide ? Ce n’est pas I’item a privilegier si nous cherchons a accroitre 
la validite des resultats au test. 

4. L’item 4 est un item ayant une meilleure relation avec le critere qu’avec le 
score total au test. C’est done un item qui mesure une caracteristique impor- 
tante dans 1’estimation du critere qui n’est pas mesuree par le test actuel. II 
faudrait considerer si un nouveau test constitue de ce genre d’items ne don- 
nerait pas lieu a des resultats plus valides que le test actuel. L’autre solution 
serait de creer deux sous-tests, chacun mesurant des caracteristiques diff'e- 
rentes et complementaires du critere. 

5. L’item 5 est un item semblable a I’item 4, sauf qu’il est un peu moins valide. 

6 L’item 6 est le prototype des items qui ne sont d’aucune utilite, que ce soit sur 

le plan de la validite des resultats ou de leur fidelite. Tous les items de la zone 
grise devraient etre rejetes ou revises en profondeur. En effet, ils constituent 
une perte de temps puisqu’ils contribuent ties peu a la precision et a la perti¬ 
nence des resultats au test. 

5.2 Optimisation d'un test 

En preparant un nouveau test, il est preferable de rediger un plus grand nombre 
d’items que ce que nous prevoyons utilise!'. Ceci permettra d’elaborer un meilleur test 
en ne choisissant que les items qui auront les caracteristiques souhaitees : c’est ce que 
nous appelons Voptimisation des caracteristiques d’un test. 
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A cet egard, les indices de fidelite et de validite possedent des proprietes 
interessantes qu’il nous est possible d’exploiter lors d’une etude d’optimisation. Par 
exemple, on peut demontrer que la variance des scores totaux a un test est egale a la 
somme des indices de fidelite. 

4 = E J . r «)" (5.24) 

Le concepteur d’un test peut done choisir d’additionner les indices de fidelite des 
items jusqu’a ce qu’il obtienne la variance des resultats souhaitee. II debutera par 
les items dont les indices de fidelite sont les plus eleves jusqu’a ce qu’il ait atteint la 
variance souhaitee avec le minimum d’items necessaires. 

Le meme exercice peut etre repete en ce qui concerne la fidelite de coherence 
interne. En effet, on peut demontrer que le coefficient a peut egalement s’exprimer en 
fonction des indices de fidelite. L’equation (5.25) exprime cette relation de la maniere 
suivante : 


7-1 


I - 




Ev-)‘ 


(5.25) 


Au denominateur de 1’equation (5 25), on reconnait 1’expression de la variance totale 
du test exprimee en fonction de la somme des indices de fidelite des items (voir equa¬ 
tion 5.24). Au numerateur, on retrouve la somme des variances des items. Cette equa¬ 
tion permet done d’estimer la fidelite qu’aurait le score a un test calcule au moyen 
des j items selectionnes. 

La meme procedure peut egalement servir a calculer la validite a partir des j 
meilleurs items. Dans ce cas, la validite du nouveau score total forme de la somme 
de j items selectionnes est donnee par le rapport de la somme des indices de validite 
a la somme des indices de fidelite pour les j items : 



II ne faut pas oublier que ces procedures d’optimisation ne sont qu’approximatives 
car elles sont basees sur les correlations item-total et item-critere calculees sur I'en- 
semble des items. Si, suite a I’elimination de certains items, ces correlations devaient 
etre fort differentes de ce qu’elles etaient initialement, les valeurs de variance, fide¬ 
lite et validite calculees par les equations (5.24 a 5.26) pourraient etre differentes de 
celles que I’on aurait obtenues en refaisant les calculs a partir des nouveaux scores 
totaux. Pour en savoir plus sur le developpement de ces equations, on peut consulter 
Gulliksen (1950) et Lord et Novick (1968). 


6. Exemple cTanalyse d'items a I'aide 
de IBM SPSS Statistics 

11 existe plusieurs logiciels dedies a 1’analyse d’items basee sur la theorie classique 
des scores Certains logiciels plus generaux off rent egalement la possibilite de reali- 
ser une telle analyse. C’est le cas. par exemple, du logiciel d’analyse statistique IBM 
SPSS Statistics version 19 qui comprend un module appele Analyse de la fabilite. 
Bien que moins complet que d’autres logiciels. ce programme a I’avantage d’etre 
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aisement accessible et facile a mettre en oeuvre. Pour cette raison, nous avons choisi 
d’illustrer une analyse d’items a I’aide de ce programme. 

Nous avons utilise coniine donnees d’analyse, les resultats a douze items aux- 
quels out repondu 232 adultes des deux sexes et de dil'ferents niveaux educatifs. Tous 
ces items sont dichotomiques et ontete cotes 1 ou 0. Dans les tableaux suivants, nous 
presentons les principaux resultats obtenus a partir de ces donnees avec le module 
Analyse de la fiabilite. Ces resultats n’incluent pas tous ceux produits par le pro¬ 
gramme. Nous nous sommes Iimites aux analyses les plus utiles detaillees dans ce 
chapitre et dans les chapitres precedents. 

Le tableau 5.7 presente la moyenne et la variance des scores des 232 sujets a 
chacun des 12 items de 1’echelle. La derniere ligne du tableau donne quant a elle la 
moyenne et la variance du score total a 1’echelle. On y trouve egalement la valeur de 
1’alpha de Cronbach (cli 3, §3.3). Comme les items sont cotes 1 ou 0, la moyenne du 
score a un item correspond a 1’indice de difficulte de cet item. Nous pouvons consta- 
ter qu’a une seule exception pres, tous les items out un indice de difficulte superieur 
a 0,5. Leur degre de difficulte s’etend de moyen a facile. Un item apparait meme ti es 
facile puisque son indice p est de 0,9698. Le score moyen a 1’ensemble de I’echelle 
est d’ailleurs assez eleve (8,2414 pour un maximum de 12). Quant a la valeur de 
1’alpha, elle est satisfaisante compte tenu de la longueur relativement reduite de cette 
echelle. Elle indique un degre eleve de covariance entre les items. 

Ces items out ete mis a 1’essai dans le cadre de la mise au point de la version 
framjaise de la WAIS-1II. Nous remercions les ECPA (Paris) de nous autoriser a uti¬ 
lise!' ces donnees. 


Tableau 5.7 — Statistiques descriptives des items et de I’echelle 


N° item 

moyenne 

Ecart Type 

1 

0,8578 

0,3501 

2 

0,6336 

0,4829 

3 

0,9698 

0,1714 

4 

0,6681 

0,4719 

5 

0,7759 

0,4179 

6 

0,5474 

0,4988 

7 

0,7284 

0,4457 

8 

0,6767 

0,4687 

9 

0,8060 

0,3963 

10 

0,4655 

0,4999 

11 

0,5733 

0,4957 

12 

0,5388 

0,4996 

Echelle: moyenne = 8,2413 
variance = 10,4004 olpho = 0,8442 
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Tableau 5.8 — Caracferisfiques de I'echelle si I'on supprime un item 


Valeur statistique si I'ifem etait supprime 

N° 

moyenne 

variance 

correlation item/ 
total 

alpha 

1 

7,3836 


0,4954 

0,8342 

2 

7,6078 

8,8888 

0,4440 

0,8378 

3 


10,2852 

0,0780 

0,8516 

4 

7,5733 

8,5747 

0,5800 

0,8269 

5 

7,4655 


0,5960 

0,8264 

6 

7,6940 

8,6635 

0,5067 

0,8330 

7 

7,5129 

8,4674 

0,6686 

0,8203 

8 

7,5647 

9,1906 

0,3484 

0,8448 

9 

7,4353 

8,6798 

0,6697 

0,8219 

10 

7,7759 

8,8413 

0,4404 

0,8385 

11 

7,6681 

8,5517 

0,5529 

0,8291 

12 

7,7026 

8,2358 

0,6678 

0,8192 


Les donnees presentees dans le tableau 5.8 apportent des informations coni- 
plementaires tres utiles pour pouvoir reperer les items problematiques qui necessitent 
d’etre soit ecartes, soit revises (ch.5, §2.2). A la lecture de la colonne a 1’ extreme 
droite du tableau, on peut constater que la valeur de l’alpha diminue lorsque l’on 
retire un des items de I’echelle, sauf dans deux cas oil cette valeur augmente. Le 
retrail de l’item 8 n’entraine qu’une inlime elevation de la valeur de l’alpha. Par 
contre, cette valeur augmente nettement lorsque l’on elimine 1’item 3. L’augmentation 
de l’alpha indique que l’item en question ne presente qu’une faible covariance avec 
les autres items. Ce phenomene peut etre du au fait que l’item incriinine rnesure une 
caracteristique distincte de celle des autres items. Dans le cas present, il decoule plu- 
tot de la reduction de l’etendue des scores. L’item 3 est en effet un item tres facile, 
reussi par la quasi totalite des sujets. Ses possibilites de covarier avec les autres items 
sont des lors reduites. On constate d’ailleurs que (’elimination de cet item affecte peu 
la variance du score total, alors que le retrait des autres items entraine une forte chute 
de cette variance. De ineme, la correlation entre l’item 3 el le score total est proche 
de zero du seul fait de la reduction de l’etendue des scores. 

Faut-il ecarter cet item de la version definitive de I’echelle ? Dans le cas present, 
la reponse doit etre nuancee. Au regard des seules valeurs statistiques, cet item devrait 
sans doute etre elimine. Toutefois, ces valeurs sont la consequence directe de la tres 
grande facilite de 1 ’item et de la reduction de l’etendue des scores qui en decoule Sur 
la base des informations disponibles, nous ne pouvons affirmer que cet item rnesure une 
car acteristique differente de celle mesuree par les autres items. Un tel item ne devrait pas 
etre rejete du seul fait de sa grande facilite car cette derniere caracteristique peut parfois 
etre souhaitable. Ainsi, un item tres facile presente en debut de test permet de mettre a 
1’aise les repondants et evite de les faire demaner par un echec. II peut egalement etre 
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Tableau 5.9 — Resultats de la melhode de bisection 



N 

moyenne 

variance 

ecart type 

alpha 

Partie 1 

6 

4,4526 

2,3181 

1,5225 

0,6662 


6 

3,7888 

3,6738 

1,9167 

0,7687 


12 

8,2414 

10,4004 

3,2250 

0,8442 


Correlation entre parties 1 el 2 = 0,7553 
Correlation apres correction de Spearman-Brown = 0,8606 


utile pour discriminer ceux qui sont de tres faible niveau. Par consequent, l’elimination 
d’un item ne doit pas se faire de maniere automatique, mais sur la base d’une apprecia¬ 
tion de 1’ensemble des exigences auxquelles doit satisfaire le test dont il fait partie. 

Les resultats que nous venous d’analyser sont produits par la procedure par 
def'aut proposee par- IBM SPSS Statistics. Des procedures alternatives d’analyse d’items 
sont possibles. Ainsi, I’option split-half ca\cu\e un coefficient de fidelite selon la methode 
de bisection (ch.3, §3.2). A title d’exemple, nous avons analyse les memes donnees 
avec cette procedure. Les resultats sont presentes dans le tableau 5.9. La « partie 1 » est 
constitute des six premiers items du test et la « partie 2 » des six items suivants. On peut 
constater que ces deux parties ne sont pas equivalentes. La premiere est a 1’evidence plus 
facile que la seconde. De plus, sa variance et son coefficient alpha sontsensiblement plus 
faibles. Le coefficient de fidelite obtenu en calculant la correlation entre les deux pailies 
se revele nettement inferieur au coefficient alpha calcule pour cette meme echelle. Cette 
difference entre les deux coefficients de fidelite est, en partie, due au fait qu’avec la 
methode de bissection, le coefficient est calcule sur la base des resultats a un test de six 
items, alors que le coefficient alpha est calcule sur une base de 12 items. Lorsque le coef¬ 
ficient de fidelite obtenu par- la methode de bissection est corrige a l’aide de la fomiule 
de Spearman-Brown (chapitre 3, fomiule 3.33), la valeur de ce coefficient depasse celle 
de 1’alpha. Malgre tout, le coefficient alpha devraitetre prefere au coefficient calcule par 
la methode de bissection car cette demiere est dependante de la maniere dont Pechelle 
est divisee en deux parties. Dans notre exemple. une autre repartition des items dans les 
deux parties pourrait produire un coefficient de fidelite different. 

7. Le fonctionnement differentiel des items 

Lors de la construction d’un test, une attention particuliere doit etre portee a la validite 
differentielle du contenu de ce test pour les differents sous-groupes qui composent la 
population a laquelle il est destine. Cette validite de contenu peut etre evaluee de 
deux manieres. La premiere s’appuie sur revaluation de chaque item par un groupe 
d’experts. La seconde est mathematique et utilise des techniques statistiques appli- 
quees aux donnees recueillies pour les items etudies. 

Differentes recherches (Hambleton & Jones, 1994) ont montre que les 
methodes statistiques d’analyse de contenu sont les plus objectives et les plus effi- 
caces pour reperer les items biaises au sein d’un test. Dans ce type d’analyse, «• un 
item est consiclere coniine non biaise lorsque la probability de reussir cet item est 
la meme pour tons les sujets de la population possedant la meme aptitude, indepen- 
damment de leur sous-groupe d'appartenance » (Osterlind, 1989, p. 11). Ainsi, il est 
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errone de croire qu’un item est biaise uniquement parce qu’il existe une difference de 
performance entre deux groupes. Pour qu’il y ait biais, il est necessaire que les sujets 
des deux groupes se situent au meme niveau d’aptitude. Vu le caractere general de 
la notion de biais et les problemes d’interpretation qui en resultent, certains auteurs 
(p.ex. Holland & Thayer, 1988, p. 129) out propose plutot Fexpression «fonction- 
neinent differentiel de I’item » (« differential item functioning », en abrege DIF). A 
present, l’usage de ce dernier terme a largement supplante celui de biais dans la 
litterature consacree a l’analyse des items. Nous l’utiliserons done dans la suite de 
cette section. 

Les methodes statistiques permettant d’analyser le fonctionnement differentiel 
des items (FDI) peuvent etre regroupees en deux grandes categories (Scheuneman & 
Bleinstein, 1989) : (I) les methodes basees sur les resultats observes aux items et sur 
le score au test et qui se referent au modele classique de la mesure ; (2) les methodes 
basees sur les aptitudes « vraies » et qui se referent aux modeles de la reponse a 
l’item (voir chapitre 7). 

Du fait de leur simplicity theorique et de leur facilite pratique, les methodes 
appartenant au premier groupe out ete les premieres developpees et appliquees. Parmi 
celles-ci, une methode a connu un succes particulier: la methode cht graphiepte Delta 
(«delta-plot method») developpee par Angoff (Osterlind, 1989; Scheuneman & 
Bleinstein, 1989). Cette methode consiste, pour chaque groupe, a calculer 1’indice 
de difficulte de chaque item (sa valeur p). Les valeurs p sont ensuite converties en 
valeurs A dont la moyenne est egale a 13 et l’ecart type a 4. Cette transformation 
permet de placer les valeurs /; des deux groupes sur une meme echelle. La distribu¬ 
tion bivariee de la difficulte des items ainsi transformes est alors representee sur un 
graphique (Figure 5.7). Sur l’abscisse, on repoile la valeur A de chaque item dans le 
premier groupe et, sur l’ordonnee, on reporte la valeur A des memes items dans le 
second groupe. Si chaque item presente une meme difficulte dans les deux groupes, la 


Valeurs A 
pour le groupe B 



Figure 5.7 — Exemple de distribution bivariee de la difficulte des items (valeurs A) 
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relation entre les valeurs Adecesdeux groupes prend la forme d’une droite. Mais, le 
plus souvent, cette relation a la forme d’un nuage de points. Les items presentant un 
fonctionnement differentiel sont ceux qui s’ecartent le plus de la droite de regression 
qui peut etre tracee au sein du nuage de points. 

La methode du graphique Delta a ete vivement critiquee (Cole & Moss, 1989. 
p. 209) car elle postule que les sujets des deux groupes possedent le meme niveau 
d’aptitude. Or, le plus souvent, ce n’est pas le cas. Coniine la methode du graphique 
Delta ne prend pas en compte les proprietes de discrimination des items, cela conduit 
a considerer erronement certains items comme fonctionnant de maniere differentielle. 
Pour eviter ce type de probleme, il est necessaire d’utiliser des methodes condition- 
nelles, c’est-a-dire des methodes qui comparent la difficult^ des items uniquement 
entre sujets de meme niveau d’aptitude. Certaines de ces methodes, comme celle 
de Mantel-Haenszel presentee ci-dessous, se referent a la theorie classique des tests. 
D’autres s’appuient sur les modeles de reponse a I’item (MRI). Nous parlerons plus 
en detail de ces dernieres dans le chapitre 6, consacre aux MRI. 

La methode de Mantel-Haenszel a ete largement adoptee par les psychometri- 
ciens car elle a I’avantage d’etre simple a utiliser et de permettre un bon reperage des 
items problematiques a partir d’echantillons de taille moyenne (N = 200 par groupe). 
Par ailleurs, elle comprend un test de signification ainsi qu’un indice permettant d’ap- 
precier l’importance du fonctionnement differentiel. 

Cette methode a ete developpee il y a plus de 30 ans dans le domaine medi¬ 
cal par Mantel et Haenszel. Mais elle n’a ete utilisee que recenunent en psychome¬ 
tric sous I’impulsion de Holland et Thayer (1988) qui out demontre son interet pour 
I’analyse du fonctionnement differentiel des items. 

La methode de Mantel-Haenszel consiste a comparer la chance de reussir un 
item pour les membres de deux groupes apres que les individus eurent ete paires sur 
base d’une aptitude determinee. Le groupe dont on veut etudier les resultats aux items 
est habituellement appele le groupe focal (F). Le groupe dont les performances sont 
prises comme base de comparaison est appele le groupe de reference (R). La pre¬ 
miere etape de I’analyse consiste a determiner le niveau d’aptitude de chaque individu 
au sein des deux groupes L’aptitude en question est celle mesuree par le test dont 
on etudie les items. Elle peut etre evaluee a I’aide d’un critere externe comme, par 
exemple, le resultat a un autre test. Mais, le plus souvent, le score total au test etudie 
est pris comme critere interne de classement des individus. Une fois les sujets ranges 
en categories d’aptitude, ilest alors possible d’apparier celles-ci entre le groupe focal 
et le groupe de reference. 

Pour chaque categorie, une table de contingence 2x2 peut alors etre construite. 
Cette table compare la frequence de reussite et d’echec d’un item dans le groupe 
focal et dans le groupe de reference. Pour chaque item du test, il y a autant de tables 
de contingence 2x2 que de categories d’aptitude. Le tableau 5.10 (d’apres Holland 
& Thayer, 1988, p. 130) illustre la forme generale de chaque table de contingence. 
Dans ce tableau, T represente le nombre total de sujets d’un niveau d’aptitude donne, 
nRj represente le nombre de sujets du groupe R et A, represente le nombre dc sujets 
du groupe R qui ont reussi I’item. Les autres entrees du tableau se definissent de 
maniere similaire. 

L’hypothese selon laquelle un item ne presente pas de fonctionnement diffe¬ 
rentiel correspond a I’hypothese nulle. Dans ce cas, pour tous les niveauxy d’aptitude. 
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Tableau 5.10 — Table de contingence pour la j eme categorie pairee 
de sujets des groupes R 



Resultal d I'item 

1 

0 

Total 

Croupes 

R 

A 



F 

f, 


nf i 


Total 


m oj 

1 


le groupe focal et le groupe de reference ont des peiTormances identiques a I’item en 
question. Cette hypothese peut etre testee au moyen du test y 2 de Mantel-Haenszel 
(5C,-i,)- Sous I’hypothese nulle, X.w_// se distribue approximativement coniine avec 
un degre de liberte. - £f(A )| - 0,5)' 

XL. h =- v- - (5.27) 




Dans cette equation, 


E(A,) = 


n R m .. 

—-— = valeur attendue de A, 

T. 1 


(5.28) 


s 2 (Aj) = variance de Aj (5.29 

Outre un test de signification, la procedure proposee par Mantel et Haenszel inclut 
une estimation du rapport des resultats entre les deux groupes. Cette estimation est 
donnee par I’equation suivante : 


a 




(5.30) 


La valeur de a peut varier de 0 a ■». Une valeur egale a 1 signifie qu’il n’y a pas 
de fonctionnement differentiel. Vu sa distribution asymetrique, ce coefficient est peu 
aise a interpreter. Pour cette raison, on prefere utiliser le logarithme de a qui permet 
d’obtenir un index, appele Delta (A), qui se distribue symetriquement autour de 0 qui 
est la valeur nulle : 

A = 2,35ln(a) (5.31) 

La valeur absolue de A represente la difference du niveau moyen de difficulty entre 
les deux groupes. Le signe de A indique la direction de cette difference. Une valeur 
positive indique que Litem est relativement plus facile pour le groupe focal. Inver- 
sement, une valeur negative indique que I’item est relativement plus facile pour le 
groupe de reference. Selon Dorans (1989), il faut considerer qu’un item presente un 

fonctionnement differentiel important lorsque la valeur du testX«_// est significative 
et que la valeur absolue de A est egale ou superieure a 1,50 

Nous avons souligne plus liaut les nombreux avantages de la methode de 
Mantel-Haenszel. Elle presente cependant certaines limites. La premiere concerne le 
ciitere permettant de definir et ensuite de pairer les niveaux d’aptitude des sujets 
des deux groupes. Nous avons souligne que, le plus souvent, le critere utilise est le 
score total au test lui-meme. L’usage d’un critere interne ne va pas sans probleme. 
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En effet, les items qui presentent un fonctionnement differentiel important intervien- 
nent dans le score total et peuvent done le fausser. Pour eviter ce probleme, il est 
d’usage (Hambleton et ah, 1993) d’appliquer la methode de Mantel-Haenszel en deux 
etapes. Lors de la premiere etape, tous les items interviennent dans le score total. Les 
items reperes comme presentant un fonctionnement differentiel sont alors exclus du 
score total et une seconde analyse est realisee. Lors de cette seconde etape, I’usage 
d’un score total epure permet un reperage inieux assure des items problematiques. II 
semble que cette maniere de f'aire soit preferable a 1’usage d’un critere externe dont 
1’adequation et la fidelite risquent d’etre moins bonnes (Angoff, 1993). 

Un autre probleme, lie au choix du ciitere, est celui du nombre de categories au 
sein desquelles regrouper les sujets. Holland et Thayer (1988) recommandent d’utiliser 
k + 1 categories, k etant le nombre d’items du test. Differentes recherches (Hambleton 
et al„ 1993) out montre que la reduction du nombre de categories n’ameliorait que 
laiblement la puissance du test statistique lorsque la distribution de Paptitude etait 
equivalente dans les deux groupes. Par contre, lorsque la distribution de Paptitude est 
inegale dans les deux groupes, la reduction du nombre de categories ameliore la detec¬ 
tion des items problematiques, mais au prix d’une augmentation de I’erreur de type 1. 
Par consequent, afin d’ameliorer la puissance du test statistique, il est preferable d’aug- 
menter la taille des echantillons plutot que de reduire le nombre de groupes de sujets. 

Un autre probleme concerne la taille des echantillons. Nous avons souligne 
qu’un des avantages de la methode de Mantel-Haenszel est de ne necessiter que des 
echantillons de taille moyenne. Plusieurs recherches (Mazor et ah, 1992) indiquent 
que la taille minimum de chaque echantillon devrait etre d’environ 200 sujets. En 
dessous de cette taille, le nombre d’items problematiques non reperes augmente nota- 
blement. D’une maniere generale, plus la taille des echantillons est grande, plus sen¬ 
sible est 1’evaluation des items. Toutefois, si 1’objectif est de reperer les items les plus 
problematiques, la methode de Mantel-Haenszel reste la methode de choix lorsque 
1’on ne dispose que d’echantillons reduits. 

Enfin, un dernier probleme pose par la methode de Mantel-Haenszel concerne 
la detection du fonctionnement differentiel non uniforme de certains items. Il s’agit 
d’items dont le sens de la difference entre groupes varie selon le niveau d’aptitude 
des sujets. Par exemple, chez les sujets possedant un faible niveau d’aptitude. un item 
pourra etre plus difficile dans le groupe F que dans le groupe R. Par contre, lorsque 
les sujets possedent un haut niveau d’aptitude, nous pourrions observer le pheno- 
mene inverse (figure 5.8). On constate que la methode de Mantel-Haenszel detecte 
mal de tels items (Hambleton & Rogers, 1989). Dans ce cas, le recours a d’autres 
methodes s’impose, comme celles basees sur la comparison des courbes caracteris- 
tiques d'items (voir chapitre 6). 

Dans le cas de tests constants a partir de vastes banques d’items, certains cher- 
cheurs choisissent d’eliminer de maniere systematique tous les items reperes comme 
problematiques a la suite des analyses statistiques. Mais, dans la majorite des cas, 
une telle politique n’est economiquement pas possible. II est en effet difficile de creer 
et de pretester a grande echelle plus d’un certain nombre d’items. Il est des lors 
necessaire d’analyser le cas de chaque item repere et de voir s’il ne vaut pas mieux le 
conserve!' malgre de mauvais indices statistiques. Plusieurs regies doivent etre suivies 
lors de cette interpretation (Nandakumar et ah, 1993). La premiere est de tenircompte 
du risque d’erreur de type I (rejeter erronement H 0 ) du au grand nombre de tests sta¬ 
tistiques realises de maniere simultanee (Dechef & Laveault, 1993). Par exemple. 
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Probability 
de reussite 



Figure 5.8 — Courbes caracteristiques d'un meme item pour deux groupes 
dans le cas d'un fonctionnement differentiel non uniforme 

si nous testons au meme moment le fonctionnement differentiel de 150 items, nous 
devons nous attendre a observer un ceilain nombre de yj signilicatifs alors que H 0 est 
vraie (absence de fonctionnement differentiel entre les deux groupes). 

Un autre principe a prendre en compte lors de F interpretation des items pro¬ 
blematiques est leur poids effectif au sein du test. Un seul item presentant un leger 
fonctionnement differentiel dans un test de 30 items n’est pas veritablement un pro- 
blbme. Un principe complementaire de celui-ci est d’etre attentif a I’equilibre entre 
les items problematiques dans les deux groupes etudies. Si, par exemple, un test com- 
prend deux items qui favorisent les gallons et deux items qui favorisent les filles, 
le resultat global a ce test ne sera pas affecte par le fonctionnement differentiel des 
items qui le composent. Les differents items problematiques se contrebalancent en 
effet au niveau du score total (Gregoire, 1995, pour une illustration). 

8. Choisir l'analyse d'items appropriee 
au type devaluation 

Les techniques d’analyse d’iterns sont nombreuses et variees. Chacune poursuit un 
but precis et nous fournit une information precieuse stir le role joue par chaque item 
dans le score total. L’analyse d’items est done indispensable a Fobtention de resultats 
valides et fideles. 

Chaque type d’evaluation fait appel a des techniques particulieres d’analyse 
d’items. C’est ce que resume le tableau 5.11. Si le but de F evaluation est de discrimi- 
ner parmi les sujets, comme c’est le cas en psychologie avec les tests de selection du 
personnel ou en education lorsqu’il s’agit d’evaluation sommative des eleves, l’ana- 
lyse d’items va privilegier les items qui discriminent fortement les sujets, de meme 
que les items dont les indices de validite et de fidelite sont eleves. Enfin, une analyse 
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Tableau 5.11 — Techniques d'analyse d'items selon le lype d'evaluation 



Indices 
de difficult^ 

Indices 

de 

discrimination 

Indices 
de fidelite 
et de validite 

Indicateurs 
de biais 

Evaluation sommatlve. 

P 

D 

h, 

7 

X (M H 

epreuves de selection 

P, 

^pbls 

'fe 



Evaluation formative (mesure 
criteriee, tests de maitrise) 

P 

5 

B 

x 2 

- 


demontrant un fonctionnement differentiel de certains items pourra contribuer a eli- 
miner ceux qui mesurent une caracteristique sans rapport avec le trait mesure et qui, 
s’ils n’etaient pas supprimes, contribueraient a biaiser les resultats en faveur d’un 
groupe ou d’un autre. 

La plupart de ces indicateurs ne sont guere utiles en evaluation formative, que 
celle-ci repose sur des epreuves de maitrise ou des instruments de mesure criteriee. 
La difierenciation des sujets n’est pas une priorite et la validite et la fidelite, quoique 
toujours importantes, ne donnent pas lieu a des analyses poussees puisque revalua¬ 
tion ne va pas aboutir a une decision finale quant au classement de l’eleve. Le but de 
1’evaluation formative est plutot d’aider et de remedier a une situation qui comporte 
des difficultes pour I’eleve. Pour les memes raisons, I’etude du fonctionnement diffe¬ 
rentiel des items interesse fort peu revaluation formative. 

L’analyse d’items en evaluation formative poile surtout sur les approches for- 
melles instrumentees, telles que les tests de maitrise et les instruments de mesure 
criteriee. Dans le cas de tests de maitrise, la discrimination la plus importante se situe 
au seuil de reussite. L’indice de Brennan est particulierement utile dans ce contexte. 
Dans le cas de tests criteries, les tests du khi-carre permettent de verifier si les liabi- 
letes mesurees sont de difficultes comparables ou si elles proviennent du merne 
domaine. Ce genre de verification peut etre utile surtout si l’on songe a regrouper les 
reussites a certaines categories d’items pour constituer non pas un score total, mais 
un profit de scores. 

L’ensemble des techniques precedentes permet d’analyser les proprietes des 
items en rappoil avec les valeurs des scores observes des sujets. Ces techniques 
conviennent particulierement en education et en psychologie lorsque les echantillons 
sont petits. II faut toutefois se rappeler que la valeur des conclusions de ces analyses 
se limite aux echantillons etudies et aux populations dont ils sont tires. 

Lorsque Ton souhaite faiie porter I’analyse sur les caracteristiques sous- 
jacentes aux items (traits latents), les analyses d’items permises par les modeles des 
reponses aux items sont beaucoup plus puissantes en autant que nous disposions de 
grands echantillons de sujets et d’items. C’est pourquoi ces analyses, decrites dans 
le chapitre 6, conviennent particulierement aux operations de testing a grande echelle 
telles que les enquetes nationales ou internationales. 





CHAPITRE 6 

TRANSFORMATION ET INTERPRETATION 
DES SCORES 


1. Scores et patrons de reponses 

Avant meme de comparerentre eux les scores obtenus par differents sujets, il importe 
de se demander a quel point la valeur absolue de cliaque score est representative de 
la fagon de repondre de I ’ensemble des participants. Des scores totaux identiques 
obtenus par deux personnes peuvent voiler des differences importantes quant a la 
maniere dont chacune a repondu aux questions du test. Ce n’est pas parce que ces 
deux personnes out le meme score total qu’elles ont necessairement repondu de la 
meme maniere aux questions ou reussi aux meines items. Par exemple, dans un exa- 
men de rendement scolaire, un eleve peut avoir reussi une section complete de I’exa- 
men portant sur Part de la Renaissance, alors qu’il a moins bien reussi la section 
poilant sur le Moyen-Age. Un autre eleve ayant obtenu le meme score aura, quant a 
lui, mieux repondu aux questions sur le Moyen-Age et echoue a presque toutes les 
questions portant sur la Renaissance. 

L’examen attend!' du patron de reponses de cliaque sujet peut reveler a quel 
point cclui-ci est conforme au patron global ou « moyen » de I’ensemble des sujets. 
On s’attend normalement a ce qu’un individu ayant obtenu un faible score a un exa- 
men ait reussi principalement les questions les plus faciles et rate les questions les 
plus difficiles. Ceci ne va pas jusqu’a signilier qu’un individu qui a reussi trois ques¬ 
tions aura repondu correctement aux trois questions les plus faciles du test, comme 
c’est le cas des scores reproductibles que nous avons etudies a la section 4.1 du 
chapitre 4. On s’attend, par contre, a ce que certains patrons soient hautement impro- 
bables. Ce serait le cas si, parmi les 50 questions que comporte un test, le sujet ne 
reussissait que les trois plus difficiles. 

II existe done plusieurs fagons d’obtenir un score donne en repondant a un test. 
Le nombre de patrons de reponses possibles est mathematiquement ties grand, mais, 
dans la pratique, certains patrons sont plus habituels que d’autres. L’etude des patrons 
de reponses peut signaler des cas inhabituels pour lesquels nous devious faire preuve 
de plus de prudence quant a 1’interpretation du score total. Un patron inhabituel peut 
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se produire chez un sujet dont 1’experience anterieure est fort differente de celle des 
autres participants. Par exemple, un eleve qui n’a jamais circule dans les transports en 
commun d’une grande ville poitrra eprouver de la difficulte a reussir un test dont le 
sujet principal est I’interpretation des horaires d’autobus et de trains de banlieue. Un 
eleve qui n’a jamais repondu a des questions a choix de reponses pourra eprouver une 
plus grande difficulte que d’autres eleves plus familiers avec ce format de questions. 

Parmi les facteurs qui peuvent entrainer des scores totaux qui ne sont pas 
conformes aux patrons de reponses de I’ensemble des sujets, mentionnons principa- 
lement les suivants : 

1. En education, comine nous venons de le voir, des differences dans 1’enseigne- 
ment re<;u ou le curriculum scolaire, la familiarite avec le format de question, 
la culture ou la langue feront que certains eleves reussiront mieux certaines 
questions que d’autres en fonction de leur contenu. 

2. En psychologie comme en education, des facteurs lies au stress et a 1’anxiete 
peuvent amener un individu a changer subitement sa faijon de repondre a un 
questionnaire. 

3. En psychologie et en education, le plagiat pent aussi entrainer des patrons 
aberrants ; un eleve qui copie pent reussir des questions difficiles et echouer a 
des questions plus faciles dont il n’a pu copier la reponse correcte. 

4. En situation de testing informatise, un mauvais encodage des reponses sur la 
feuille a lecture optique entrainera egalementdes patrons de reponses suspects. 
Ceux-ci apparaitront si un eleve ne noircit pas les bonnes cases ou commet 
une erreur systematique dans 1’entree de ses reponses. 

1.1 Indicateurs de conformite 

L’examen visuel des patrons dc rcponses est une operation fastidieuse. De plus, die 
ne permet pas une mesure precise de 1’ecart entre le patron de chaque sujet et celui 
obtenu par 1’ensemble des participants de son groupe de reference. Harnisch & Linn 
(1981) regroupent en deux categories les indicateurs numeriques qui permettent 
de determiner a quel point le patron de reponses d’lin individu pent etre considere 
comme inhabituel : 

• Les indicateurs de conformite tires des modeles de reponse aux items (voir 
chapitre 7 pour une presentation de ces modeles). 

• Les indicateurs de con formite dont le calcul est base directement sur le patron 
de reponses, dont I’indice de « prudence » ( caution index ) de Sato (1975). 

Apres avoir compare liuit indicateurs bases surle patron de reponses, Harnisch 
& Linn (1981) recommandent d’utiliser I’indicateur modifie de prudence {« modi¬ 
fied caution index ») de Sato. Par rapport aux autres indicateurs de sa categorie, il a 
I’avantage de ne pas etre correle avec le score total. La mesure du degre de confor¬ 
mite du patron de reponses par I’indicateur de Sato n’est done pas affectee par le 
score total, ce qui est un net avantage puisque tons les sujets seront traites de maniere 
equivalente. 

Le tableau 6.1 presente des donnees qui seront utilisees pour le calcul de 
1’indice de prudence de Sato. Il s’agit en fail des memes donnees que celles du 
tableau 4.7, chapitre 4. En guise de rappel, signalons que les donnees des 10 sujets 
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du tableau 4.7 nous avaient permis de conclure que les cinq items formaient une 
echelle hierarchique et que, par consequent, les scores totaux etaient reproductibles. 
La plupart des sujets de ce tableau reussissent les items dans un ordre s’approchant 
de ties pres de I’ordre de difficulty des items etabli pour I’ensemble des participants. 

Dans le tableau 6.1, le sujet 4 n’a reussi qu’un seul item, en I’occurrence 
I’item le plus difficile. Par consequent, son patron de reponses est ties inhabituel dans 
ce tableau de donnees. Nous nous attendons done a ce que le sujet 4 obtienne le score 
de conformite le plus eleve, tel que calcule par I’indice de prudence de Sato ou par 
1’indice de prudence modifie. 


1.2 Indice de Sato 

L’indice de prudence de Sato est fourni par la formule suivante : 

h ~Up,- I U«n, 


C = 


X", 

1 m I J 


( 6 . 1 ) 


C, = indice de prudence pour le sujet /' 

/ - indice des sujets 1 a 10 

j = indice des items 1 a 5 

U :j = reponse observee du sujet /' a I’item j 

n- = nombre total de reussites pour le sujet i 

nj = nombre total de reussites a I’itemy 

Pour simplifier les calculs, Harnisch & Linn (1981) proposent de remplacer la 
formule precedente par la suivante, algebriquement equivalente : 

•‘j, J 

J 'L n j - J 'L u i, n J 

c, = -^r - ^7 - ( 6 . 2 ) 

J 2* n j- n >i* n i 

y-i i-t 


En substituant les donnees du tableau 6.1 dans l’equation precedente, nous obtenons : 
U 4j = reponse observee du sujet 4 aux items I a 5 = 0 0 0 0 1 
n 4 - nombre total de reussites aux items I a 5 pour le sujet 4 = 1 
n t - nombre total de reussites a chacun des 5 items pour les 10 sujets = 7 66 42 
Ce qui, une fois les donnees replacees dans I’equation de Sato, fournit le resultat 
suivant : 


J 

5 S'C - 5^2 (0,0,0,0.1) X (7,6,6,4,2) 



5 2>,-'X* 9 - 7 ' 5 - 5 ' 2 ) 

/-i y-i 


(5 x 7)-(5 x 4) _ 25 
(5 x 7) — (1 x 25) ~ 10 
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Tableau 6.1 — Donnees servant au colcu! de I'indice de prudence de Soto 


Sujet # 

Item 3 

Item 2 

Item 5 

Item 1 

Item 4 


#erreurs 
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3 

1 

1 

1 

1 

1 

5 

0 

0,00 
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1 
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1 
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0 

0,00 

0,00 

9 

1 

1 

1 
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0,00 

5 

1 

1 

1 

0 

0 

3 

0 

0,00 

0,00 

1 

1 

1 

1 

0 

0 
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1 

1 

1 

1 

0 

0 

3 

0 

0,00 

0,00 

6 

0 

0 

0 

1 

0 

1 

1 



1 

1 

0 

0 



1 




4 

0 

0 

0 

0 

1 

1 
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0 

0 

0 

0 

0 

0 



0,00 

n , 

7 

6 

6 

4 

2 






Deux observations s’imposent en ce qui concerne les resultats du tableau 6.1. 
A l’exception des sujets 4 et 6, toutes les valeurs des indices de conformite sont 
egales a 0. Dans une echelle hierarchique dont le coefficient de reproductibilite (voir 
chapitre 4) est egal ou superieur a 0,90, il est normal que les patrons de la plupart des 
sujets soient conformes a 1’ordre de difficulty du groupe. La seconde observation a 
trait aux sujets 4 et 6. Ils out tous les deux reussi un seul item, mais pas I’item le plus 
facile. Le sujet 4 a reussi I’item le plus difficile et le sujet 6 a reussi un item deux fois 
plus facile. L’indice de conformite est sensible a cette difference entre les deux sujets. 
Entre deux sujets n’ayant reussi qu’un seul item, le score le plus suspect se retrouve 
chez celui qui a reussi le plus difficile des deux items, dans ce cas-ci, le sujet 4. 

L’indice de conformite de Sato pouvant prendre n’importe quelle valeur posi¬ 
tive, il est difficile a interpreter et a comparer. Que signifie un indice de 2,5 ? A partir 
de quelles valeurs un patron de reponses devient il suspect ? II n’y a pas de reponses 
simples aux deux questions precedentes puisqu’il n’y a pas de test de signification 
statistique de I’indice de Sato. Plus sa valeur est grande, plus le score total merite 
notre attention. Il existe par ailleurs un indice modifie de Sato qui ramene toutes 
les valeurs de conformite sur un intervalle s’etendant de 0 a 1. La comparaison des 
indices en est simplifiee puisque 1’on connait la valeur maximale de I’indice et que 
celle-ci est fixee a 1. 

L’indice de conformite modifie de Sato est fourni par 1’equation suivante : 

“i. J 

Z'-'VQ- Z 

C = ^-^ 4 !- ( 6 , 3 ) 

i«i- i ", 

j -1 j=J ♦ 

Pour calculer I’indice modifie pour le sujet 4, on substitue dans l’equation precedente 
les valeurs suivantes tirees du tableau 6.1 : 
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I ? 

£(1,1,1,1.0) x (7,6,6,4,2)- X(0,0.0,0,1) x (7,6,6,6,4,2) 

7 = 1 _ J_z2 _ 

2 ,( 7 , 6 , 6 , 4 . 2 )- 2 ,( 7 , 6 , 6 , 6 , 4 , 2 ) 

J = 1 i = 5 


7-2 

7-2 



Dans le cas du sujet 4, I’indice modilie prend la valeur maximale de 1,00 puisque 
la situation est la plus inhabituelle que Ton puisse concevoir : il ne reussit qu’un 
seul item et c’est le plus difficile. S’il s’agissait d’un item a choix de reponses, nous 
pounions inferer que cette seule reussite est l’effet du liasard. Dans le cas du sujet 6, 
la valeur de l’indice modifie est plus faible, car I’item reussi n’est pas parmi les plus 
dil'ficiles et de plus, il est deux fois plus facile que l’item le plus difficile : en effet, 
quatre sujets font reussi au lieu de deux. Ceci explique pourquoi l’iitdice pour le 
sujet 6 est de 0,60 au lieu de 1,00. 


1.3 Autres applications des indices de conformite 

Dans les exemples presentes jusqu’ici, il a ete question surtout de la conformite des 
patrons de reponses des sujets par rapport a celui de leur groupe de reference. La 
meme question peut se poser en ce qui concerne la conformite du patron de reponses 
d’un groupe restreint par rapport a un groupe plus grand. Harnisch et Linn (1981) 
out en effet utilise les indices de conformite pour comparer les patrons de reponses 
de classes et d’ecoles par rapport aux resultats d’un examen applique il l’ensemble 
de I’Etat d’lllinois. Cette information diagnostique permet de mieux comparer les 
resultats d’ecoles obtenant les memes moyennes, mais des patrons de reussite fort 
dilferents. Dans les ecoles ou I’enseignement diverge considerablement du curricu¬ 
lum prescrit, les patrons de reponse peuvent, dans ces cas precis, prendre des formes 
inhabituelles. 


2. Les normes 


2.1 Echelles normees et non normees 

Dans le cadre d’une evaluation normee, tester des sujets consiste toujours a les com¬ 
parer, ii les distinguer entre eux. Sans reference aux resultats d’autres sujets, les notes 
brutes d’un individu a un test donne sont sans signification precise. En effet, d’un 
test a 1’autre, la nature et la difliculte des items valient. Sur la base d’un score brut, 
nous ne pouvons done determiner si un sujet est faible ou brillant. Pour pouvoir inter¬ 
preter les resultats, il est necessaire de faire correspondre les notes brutes a celles 
d’une echelle de reference qui possede une valeur normative. Nous verrons plus loin 
que cette echelle peut prendre differentes formes plus ou moins commodes pour le 
praticien. 

L’etalonnage d’un test est la graduation de I’echelle des resultats qui va per- 
mettre la comparaison des scores de dif'ferents individus. Pour etalonner un test, 
celui-ci doit avoir ete administre a un echantillon representatif de la population choi- 
sie. Les resultats obtenus serviront alors de normes pour cette population et pour elle 
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seule. En effet, des ecarts paifiois sensibles existent non settlement entre les perfor¬ 
mances de populations dont la culture et le systeme educatif sont ties differents, mais 
aussi entre des populations plus proches en apparence. Par exemple, Deltour (1973) 
observe qu’a 1 ’echelle de Wechsler pour les jeunes enfants (WPPSI), les sujets beiges 
obtiennent en moyenne un Q1 de performance inf'erieur de 8 a 9 points a celui des 
sujets fran<;ais du meme age, alors qu’o priori, les contextes culturels et educatifs des 
enfants beiges francophones et des enfants fran^ais sont ties proches. 

La relativite des normes n’est pas seulement synchronique, mais elle est 
aussi diachronique. En effet, les caracteristiques d’une population ne restent pas 
stables au cours du temps, La composition d’une population peut changer et, sur- 
tout, les conditions educatives peuvent se modifier. Par exemple, dans les pays 
occidentaux, on observe que diverses modifications bio-environnementales (ame¬ 
lioration des conditions sanitaires, elevation du niveau moyen de scolarite...) 
entrainent une augmentation des performances aux tests d’intelligence (Gregoire, 
2009). C’est ce que constate Flynn (1987) dans une importante recherche inter- 
nationale, Entre autres, 1’auteur rapporte des donnees ties robustes a propos des 
performances des appeles au service militaire hollandais qui, chaque annee, for- 
ment un important echantillon d’hommes ages de 18 ans. Entre 1952 et 1982, tous 
ces appeles out passe le meme test d’intelligence, en l’occurrence les Matrices cle 
Raven. Si nous prenons comme normes de reference celles de 1952, nous consta- 
tons que le QI moyen de l’echantillon de 1982 atteint 121,10 points. En trente ans, 
nous observons ainsi un bond de plus de vingt points de QI a un test d’intelligence 
non verbale. Des donnees similaires ont ete recueillies sur les appeles beiges a 
1’aide du meme test de Raven, mais l’etude a ete faite sur une periode plus breve 
(de 1958 a 1967). Sur cette periode, on observe une augmentation du QI de 6,47 
points chez les Beiges francophones et de 7,82 points cliez les Beiges neerlando- 
phones. En France, toujours cliez les appeles et toujours avec le test de Raven, le 
saut quantitatif est encore plus spectaculaire puisque, entre 1949 et 1974, le Q.I. 
moyen a augmente de 25,12 points. 

Le praticien doit done garder en tete que les normes vieillissent. La vitesse 
de la degradation de la qualite des normes varie toutefois selon le type de test. Les 
normes d’un test de developpement psychomoteur bougent sans doute moins avec le 
temps. Par contre, les normes d’un test de vocabulaire ou d’un questionnaire de per- 
sonnalite risquent de devenir obsoletes plus rapidement. Un reetalonnage regulier des 
tests est done indispensable. 

Angoff (1971), constatant que les echelles qui possedent une signification nor- 
mee sont condamnees a devenir obsoletes avec le temps, souligne l’interet de creer 
des echelles non normees, e’est-a-dire independantes de tout groupe de sujets. Les 
echelles construites dans le cadre de 1’evaluation criteriee sont un exemple d’echelles 
non normees. Mais c’est surtout dans le cadre des modeles de reponse a I’item que 
des echelles non normees ont pu etre developpees. Dans ce cas, la difficulty d’un 
item est consideree comme un parametre invariant, independant de I’echantillon de 
sujets qui a permis de l’estimer. Avec un ensemble d’items, il est des lors possible de 
construire une echelle de reference sans caractere norme. Cette question, loin d’etre 
triviale, sera traitee plus en detail dans le chapitre 7 consacre aux modeles de reponse 
a I’item. 
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2.2 Etablissement des normes 

2.2.1 Definition de la population 

Comme nous I’avons indique plus haut, la procedure d’etalonnage d’un test com- 
prend la passation de ce test par un echantillon de la population de reference. II est 
done necessaire de debuter la procedure par une definition claire de cette population. 
Rappelons que, du point de vue statistique, une population correspond a tous les cas 
possibles au sein d’un ensemble determine. Cet ensemble peut etre fini ou infini. La 
population peut parfois etre constitute d’un petit nombre de cas qui peuvent etre tous 
mesures. Mais, le plus souvent, la taille de la population rend difficile, voire impos¬ 
sible, toute collecte exhaustive de mesures. II faut alors se limiter a un echantillon a 
partir duquel les caracteristiques de la population seront inferees. 

La definition de la population doit etre appropriee a I’usage qui sera fait du 
test. Par exemple, si un test est destine a diagnostiquer les troubles du developpement 
sensori-moteur, la population visee peut etre celle des enfants ages de 0 a 3 ans. Et si 
un questionnaire est destine a evaluer le developpement social des handicapes men- 
taux, la population de reference sera celle des handicapes mentaux. D’une maniere 
generate, il est necessaire que la population de reference soit suffisamment homo¬ 
gene, e’est-a-dire que tous les individus susceptibles d’etre evalues a I’aide du test en 
fassent clairement partie. 

Lorsqu’un test est developpe par un editeur commercial, il est frequent que 
les normes soient nationales. L’avantage majeur de se referer a une population 
nationale est de permettre la production d’un systeme unique de normes, valable 
pour un ties grand nombre de sujets. L’interet commercial et la facilite d’usage 
sont evidents. Cependant, la reference a la population nationale n’implique pas 
que les normes de differents tests soient ipso facto comparables En effet, cette 
population n’est pas toujours definie de la meme maniere par les editeurs. En 
particulier, ces derniers ne s’accordent pas toujours a propos de I’inclusion de 
certains groupes atypiques dans la population de reference. Par exemple, les han¬ 
dicapes mentaux sont parfois inclus et d’autres fois exclus de la population lors de 
I’etalonnage de tests cognitifs ou d’acquis scolaires. II en resulte des differences 
sensibles entre les normes de certains tests qui, pourtant, se referent tous a la 
population nationale. Par ailleurs, les normes nationales souffrent parfois de leur 
trop grande generalite. En effet, il est souvent plus pertinent pour les praticiens de 
prendre des decisions en s’appuyant sur des normes plus specifiques. Par exemple, 
pour un psychologue travaillant dans des milieux scolaires socio-economiquement 
defavorises, il sera generalement plus utile de disposer de normes determinees sur 
ce type de population. 

Pour cette derniere raison, mais aussi pour des motifs financiers, il est frequent 
de ne developper que des normes locales. Dans ce cas, la population de reference sera 
plus circonscrite. Elle correspondra, par exemple, aux eleves des ecoles de toute une 
ville ou encore aux patients d’une institution d’accueil pour handicapes. Les normes 
qui seront generees en reference a ces populations serviront habituellement a des 
objectifs ties precis : aider a orienter des eleves vers differents etablissements ou 
constituer des groupes homogenes pour les apprentissages. Les limites des normes 
locales decoulent de cette ties grande specificite. En effet, pour d’autres usages du 
test ou du questionnaire, il sera necessaire de developper de nouvelles normes. 
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2.2.2 L'echantillonnage 

Dans le paragraphe precedent, nous avons souligne qu’il n’est generalement pas pos¬ 
sible d’etablir des normes en testant toute la population de reference. Nous sommes 
done contraints d’inferer les caracteristiques de la population a partir des informa¬ 
tions contenues dans les resultats d’un echantillon. Les normes ne constituent des 
lots qu’une estimation de certains parametres de la population, coniine la moyenne 
et la variance des scores. Le but de la procedure d’echantillonnage est de minimiser 
I’erreur d’estimation de ces parametres. Nous allons passer en revue les principales 
techniques utilisees pour constituer un echantillon d’etalonnage. 

Pour des raisons d’economie, il est frequent de recourir a un echantillon 
de convencince. II est en effet beaucoup plus commode pour le praticien d’utiliser 
des sujets de son entourage ou des personnes qui se sont presentees volontairement 
suite a une annonce. Malheureusement, cette procedure d’echantillonnage doit etre 
deconseillee, car elle entraine de serieux biais dans I’estimation des parametres de la 
population. En effet, I’importante place laissee au jugement du praticien ne conduit 
generalement pas a la constitution d’un echantillon representatif de la population, car 
les erreurs dues au biais de selection ne sont pas controlees. De plus, la procedure 
n’etant pas aleatoire, il n’est pas possible d’evaluer I’importance de I’erreur d’estima¬ 
tion des parametres. 

Angoff (1971) fait remarquer qu’avec les tests cognitifs, I’usage d’echantillons 
de convenance conduit habituellement a une surestimation des scores de la popu¬ 
lation. En effet, les sujets volontaires appartenant a I’environnement du chercheur 
constituent souvent un sous-groupe socioculturellement favorise au sein de la popu¬ 
lation. Mais I’exemple le plus celebre d’erreur d’estimation due au biais de selection 
est certainement celui des sondages precedant I’election presidentielle americaine 
de 1948. Tous les instituts de sondage avaient en effet prevu une victoire ecrasante 
de Thomas E. Dewey alors que, finalement, ce fut Hairy Truman qui triompha. A 
cette epoque, la technique la plus utilisee etait l’echantillonnage par quotas. Cette 
technique consiste a selectionner I’echantillon de maniere systematique afin que ses 
caracteristiques correspondent exactement a celles de la population. Par exemple, si 
la population est composee de 49 % d’hommes, on demande aux enqueteurs d’inter- 
roger des homines jusqu’au moment ou I’echantillon en inclut exactement 49 %. La 
faiblesse de cette methode d’echantillonnage est de laisser une trop grande place a la 
subjectivity des interviewers. Un biais, en partie inconscient, risque en effet d’inter- 
venir dans la selection des repondants. Ce phenomene s’est d’evidence produit dans 
les sondages de 1948 et a conduit a une serieuse mise en question de la methode 
d’echantillonnage par quotas. 

De maniere a controler I’erreur d’echantillonnage, c’est-a-dire I’erreur d’es¬ 
timation des parametres de la population, il est necessaire d’exclure toute subjecti¬ 
vite de la procedure et de constituer I’echantillon de maniere purement aleatoire. Un 
echantillon peut etre considere comme aleatoire si chaque sujet de la population a une 
probability egale d’etre selectionne. Si c’est le cas, I’estimation des parametres de la 
population sera non biaisee. Par' ailleurs, il nous sera possible de calculer I’erreur type 
d’estimation des differents parametres et de determiner un intervalle de confiance 
autour des valeurs calculees a partir des scores de I’echantillon. II existe diverses 
techniques d’echantillonnage aleatoire : (1) l’echantillonnage aleatoire simple, (2) 
l’echantillonnage aleatoire stratifie, (3) l’echantillonnage systematique et (4) I’echan- 
tillonnage par grappes. 
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Nous parlons d’echantillonnage aleatoire simple si, dans une population de taille 
N, nous tirons un echantillon de taille /? afin que chaque individu de la population ait 
la meme probabilite d’etre selectionne. La procedure d’echantillonnage aleatoire simple 
consiste a assigner un numero specifique a chaque individu de la population puis a tirer 
au sort parmi les numeros un echantillon dont la taille a ete delinie au prealable. Pour 
realiser ce tirage au sort, nous pouvons utiliser soit une table de nombres aleatoires, soit 
le generateurde nombres aleatoires inclus dans la plupart des programmes de statistiques 
actuels (p. ex. SAS, SPSS) Les tables de nombres aleatoires sont construites pour obte- 
nir une distribution uniforme. Les programmes statistiques permettent, en plus, de gene- 
rer des nombres aleatoires avec difi'erents types de distribution (distribution nomiale, 
distribution de t, distribution de yj .Dans le cas d’une procedure d’echantillonnage 
entreprise en vue d’etablir des normes, il sera necessaire de choisir la procedure generant 
des nombres aleatoires avec une distribution uniforme ou rectangulaire. Celle-ci accorde 
a chaque membre de la population une probabilite egale d’etre choisi. 

Une f'ois 1’echantillon constitue, chaque individu selectionne passe le test 
que I’on souhaite etalonner. Sur la base des scores de 1’echantillon, les statistiques 
desirees sont ensuite calculees. Elies seront considerees comme autant d’estimations 
des parametres de la population. Les erreurs d’echantillonnage etant inevitables, il 
importe egalement d’evaluer 1’erreur d’estimation des parametres. A title d’illustra¬ 
tion, nous prendrons le cas de la moyenne. 

Comme nous 1’avons vu dans le chapitre 2, du fait des erreurs aleatoires 
d’echantillonnage, la moyenne que nous calculous a partir des scores de 1’echantillon 
risque d’etre sensiblement differente de celle que nous pourrions calculer a partir de 
tous les scores de la population. Si nous tirions un grand nombre d’echantillons au 
sein de la population et que nous calculions chaque fois la moyenne des scores, les 
difl'erentes moyennes tendraient a se distribuer normalement et leur moyenne serait 
egale a la moyenne de la population. L’ecart type de cette distribution de moyennes 
est appele 1’erreur type de la moyenne et se note S-. A partir de 1’echantillon que nous 
avons selectionne, cette valeur peut etre estimee de maniere non biaisee au moyen de 
la f'ormule suivante : 


s~ N - n 
n 


N 


(6.4) 


,r - variance des scores de 1’echantillon 
n - taille de 1’echantillon 
N - taille de la population 

Dans cette formule, le terme (N-n/N est appele la correction pour population 
finie. Cette correction prend en compte le fait qu’une estimation basee sur un echan¬ 
tillon de 20 participants tire d’une population de 60 sujets contient plus d’information 
a propos de la population qu’un echantillon de 20 participants tires d’une popula¬ 
tion de 10.000 sujets. Cette correction peut etre ignoree lorsqu’elle est superieure ou 
egale a 0,95, c’est-a-dire lorsque n < (l/20)N. Dans ce cas, la f'ormule 6.4 s’ecrit de 
maniere plus simple : 



(6.5) 
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La connaissance de 1’erreur type de la moyenne nous permet de construire un inter- 
valle de confiance autour de la moyenne de Pechantillon. Cet intervalle nous oblige 
a relativiser la valeur obtenue a partir de I’echantillon et a prendre conscience de 
I’importance de I’erreur d’estimation de la moyenne. Si nous souhaitons avoir 95 % 
de chance que la moyenne de la population se trouve dans I’intervalle de confiance, 
il nous suffit de multiplier I’erreur type de la moyenne par 1,96 lorsque notre echan- 
tillon est de taille superieure a 30, ce qui est generalement le cas lorsque Ton souhaite 
etablir des normes. Puis, a I’aide de cette valeur, nous determinons la borne inferieure 
et la borne superieure de I'intervalle en la soustrayant et en I’additionnant au score 
moyen de Pechantillon. Par exemple, si la moyenne de Pechantillon est 53,21 et I’er- 
reur type est 3,20,1’intervalle de confiance a 95 % sera egal a [53,21 - (3,20 x 1,96); 
53,21 + (3,20 x 1,96)], c’est-a-dire [46,94 ; 59,48]. 

La formule 6.5 permet de nous rendre compte aisement que I’erreur type de la 
moyenne depend de deux variables : la variance des scores et la taille de Pechantillon. 
Plus la taille de I’echantillon est grande et plus la variance des scores est petite, plus 
I’erreur type de la moyenne est faible; c’est-a-dire plus precise est I’estimation de la 
moyenne de la population. Par ailleurs, partant de cette formule, il est possible de deter¬ 
miner a priori la taille minimum de I’echantillon d’etalonnage necessaire pour atteindre 
un niveau d’erreur d’estimation donne. Cette information est economiquement ties utile 
puisqu’elle nous permet d’obtenir la precision d’estimation souhaitee au moindre cout. 
La taille de Pechantillon peut etre determinee a I’aide de la formule suivante : 


No 2 

ND + a' 


( 6 . 6 ) 


N = taille de la population 

a 2 = variance des scores de la population 



4 


B est la borne de Perreur d’estimation que nous avons choisie et correspond a 
deux fois Perreur type d’estimation. Cette valeur, definie a priori, doit nous permettre 
de construire un intervalle de confiance de 95 % autour de la moyenne de Pechan¬ 
tillon. Quant a la variance des scores de la population, elle nous est inconnue. II est 
done necessaire d’estimer celle-ci a partir des resultats d’un echantillon. Souvent, les 
resultats recueillis lors d’une premiere experimentation du test sont utilises a cet effet. 
La taille de I’echantillon devra cependant etre suffisante pour permettre line estima¬ 
tion assez precise de la variance de la population. 


Nous pouvons illustrer 1 ’utilisation de la formule 6.6 par I’exemple d’un test 
d’orthographe, constitue de 80 mots d’usage, que I’on souhaite etalonner pour la 
4 C annee de I’enseignement primaire beige francophone (age moyen = 10 ans) dont la 
population est de 117.395 eleves. On desire determiner la taille minimale de Pechan¬ 
tillon necessaire pour estimer la moyenne des scores de cette population avec une 
marge d’erreur egale a 2 points (en plus ou en moins). Une premiere experimentation 
du test sur un echantillon de 75 eleves a permis d’estimer la variance des scores de la 
population, qui est approximativement egale a 225. Par consequent : 


B = 2 
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117 395 x 225 
(117 395 x 1) + 225 


= 225 


II faudrait done tirer un echantillon aleatoire simple de 225 eleves an sein de cette 
annee scolaire pour pouvoir estimer la moyenne de la population au test d’ortho- 
graplie avec 95 % de chance que la moyenne de la population soit incluse dans 1’in- 
tervalle de ± 2 points autour de la moyenne de I’echantillon. Si 1’on desire que cet 
intervalle soit de ± 1 point, la taille de 1’echantillon devra etre au minimum de 894 
eleves. Nous constatons que, dans ce cas, (’amelioration de la precision implique une 
augmentation ties importante de la taille de Pechantillon necessaire. 

L’eclwntillonnage aleatoire stratifie consiste a rassembler les individus de la 
population au sein de groupes sans recouvrement, appeles strates, et a ensuite selec- 
tionner un echantillon aleatoire simple dans chacune des strates ainsi constituees. Par 
exemple, pour etalonner un test de memoire de series de chiffres, nous pouvons divi- 
ser la population en cinq groupes definis par le niveau d’etudes puis tirer au hasard 
dans chaque groupe un nombre d’individus proportionnel a 1’importance de ce groupe 
au sein de la population. Dans ce cas, aucune des strates ne se recouvre puisqu’un 
individu ne peut appartenir qu’a une seule strate. Par- consequent, les echantillons 
selectionnes dans les differentes strates seront independants les uns des autres. 

Le principal avantage de Pechantillonnage aleatoire stratifie est de permettre 
une estimation des parametres de la population plus precise que celle obtenue avec un 
echantillon aleatoire simple de meme taille. Cet avantage n’est cependant effectif que 
si la population est diviseeen strates relativement homogenes sur la base d’une ou plu- 
sieurs variables correlees avec la variable mesuree par le test. C’est le cas dans notre 
exemple, car la memoire de series de chiffres est correlee avec le niveau d’etudes. La 
variance au sein de chaque strate est des lots plus faible que la variance au sein de la 
population. Dans cet exemple, il est possible d’encore reduire la variance intra-strates 
en definissant chacune de celles-ci sur la base des variables « niveau d’etudes » et 
« age ». En effet, Page est egalement correle avec la memoire de series de chiffres. 
Les strates definies en tenant compte du niveau d’etudes et de Page seront des lots 
plus homogenes que celles delinies en tenant compte du seul niveau d’etudes. 

Un second avantage de Pechantillonnage aleatoire stratifie est de nous per¬ 
mettre d’estimer aisement les parametres de sous-groupes de la population. Nous pou¬ 
vons par exemple estimer le score moyen de memoire de chiffres selon Page et selon 
le niveau scolaire. Enfin, un dernier avantage de Pechantillonnage aleatoire stratifie 
est de donner plus de credibility aux normes. Les utilisateurs de tests accordent en 
effet une plus grande confiance a des normes basees sur un echantillon qui respecte 
la composition demographique de la population, meme si certaines caracteristiques 
de cette population ne sont nullement correlees avec la variable mesuree par le test. 

Avec un echantillon aleatoire stratifie, le calcul de 1’erreur d’estimation est 
plus complexe qu'avec un echantillon aleatoire simple. L’erreur type de la moyenne 
peut etre estimee a Paide de la formule suivante : 






N, - «. 
N 



(6.7) 


N = taille de la population 

Af = taille de la i-eme strate au sein de la population 
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/; ( = taille de Fechantillon lire au sein de la i-eme strate 

s~ = variance des scores de Fechantillon tire au sein de la i-eme strate 

Le nombre d’individus dans une strate de la population at't'ecte la quantite 
d’information incluse dans un echantillon tire au sein de cette strate. Par consequent, 
la taille de Fechantillon tire dans cliaque strate est habituellement proportionnelle a la 
taille de la strate au sein de la population. Si ce principe est respecte, Festimation de 
la moyenne a partir d’un echantillon aleatoire stratifie equivaut a celle estimee a partir 
d’un echantillon aleatoire simple. 

L'eehantillonnage systematique consiste a choisir de maniere aleatoire un indi- 
vidu au sein d’une liste (ou de tout autre cadre de reference) puis, a partir de cet indi- 
vidu, de selectionner tous les k-iemes individus de la liste. Par exemple. un praticien 
qui souhaite etalonner un test de lecture au sein d’une ecole utilisera la liste alphabe- 
tique des eleves au sein de laquelle il choisira de maniere aleatoire un premier sujet. 
A partir de celui-ci, il selectionnera systematiquement tous les 10 e sujets tout au long 
de la liste jusqu’a la fin de celle-ci. 

Le principal avantage de l’eehantillonnage systematique reside dans sa facilite 
de mise en ceuvre. L’eehantillonnage aleatoire simple et l’eehantillonnage aleatoire 
stratifie represented des procedures nettement plus couteuses en temps. Il faut en 
effet numeroter tous les individus de la population avant de realiser un tirage alea¬ 
toire. Cette procedure est particulierement laborieuse lorsque la taille de la population 
est tres grande, et elle est meme impossible lorsque nous ne connaissons pas la taille 
de la population et/ou que nous n’en possedons pas de liste exhaustive. Dans ce cas, 
l’eehantillonnage systematique se revele une procedure de choix. En effet, nous pou- 
vons selectionner les sujets a partir d’une liste (par exemple un fichier alphabetique 
ou un annuaire telephonique). Nous pouvons aussi les choisir en possedant seulement 
une definition en comprehension, mais non en extension, de la population de refe¬ 
rence. Par exemple, un psychologue peut etalonner un questionnaire de qualite de vie, 
destine aux patients de l’hopital ou il travaille, en le faisant passer par un individu 
sur trois vus en consultation. Dans ce cas, la taille de la population est inconnue et 
aucune liste des individus n’est evidemment disponible. Lorsque nous possedons une 
liste exhaustive de la population, la regie pour determiner la periodicite de la selection 
est de choisir une valeur k plus petite ou egale au rapport entre la taille de la popu¬ 
lation et la taille de Fechantillon (e’est-a-dire k < N/n). Par exemple, si la population 
est egale a 2 000 et Fechantillon est egal a 50, k devra etre egal ou inferieur a 40. 

Pour un echantillon systematique, I’estimation de Ferreur type de la moyenne 
se calcule selon la meme formule que pour Fechantillon aleatoire simple (formule 6.4). 
Lorsque la taille de la population est inconnue, la formule 6.5 devra etre utilisee Tou- 
tefois, Fidentite des fonnules utilisees n’implique pas que Festimation de la moyenne 
de la population est similaire selon les deux procedures d’echantillonnage. En realite, 
elle n’est equivalente que si la liste des individus de la population est aleatoire, e’est- 
a-dire si la correlation est nulle entre le critere d’organisation de la liste et la variable 
mesuree par le test. Par exemple, la correlation entre le classement alphabetique des 
eleves et leur niveau de lecture est, selon toute vraisemblance, nulle ce qui nous permet 
de considerer le fichier alphabetique des eleves comme une liste aleatoire. Le praticien 
devra etre attentif a cette question car la succession des individus n’est pas toujours 
independante de la variable mesuree et Festimation des parametres de la population 
risque des lors d’etre biaisee. Par exemple, le niveau moyen de depression peut varier 
en fonction des periodes de l’annee. Par consequent, le psychologue qui selectionne 
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de maniere systematique un echantillon sur une periode restreinte risque d’obtenir des 
normes biaisees. 


L’ecliantillonnage en grappe consiste en la selection aleatoire de collections 
de sujets, appelees grappes L’unite tiree an sort n’est des lors plus un individu, mais 
un ensemble d’individus. Cette technique est, dans un certain nombre de situations, 
la moins couteuse a mettre en oeuvre. C’est le cas lorsque nous ne possedons pas de 
liste des individus de la population et/ou que le testing individuel de chaque sujet se 
revele difficile. Imaginons, par exemple, un test d’acquis scolaires devant etre eta- 
lonne pour des eleves de I’enseignement secondaire. Si nous utilisons une des tech¬ 
niques d’echantillonnage precedemment decrites, nous allons devoir extraire un ou 
deux eleves d’un grand nombre de classes dans le but de Ies tester. Cette procedure 
est evidemment laborieuse et peilurbante pour le bon fonctionnement des classes. 
Dans ce cas, il est souvent plus simple de selectionner aleatoirement des classes 
entieres et de tester tous Ies eleves qui en font partie. 

L’echantillonnage en grappes est d’autant plus efficace que les grappes sont 
heterogenes. Nous recoltons alors un maximum d’informations apropos de la popu¬ 
lation au moindre cout. Par contre, lorsque les grappes sont ties homogenes, nous 
sommes obliges de tester un grand nombre d’individus pour recueillir line informa¬ 
tion relativement limitee. Par ailleurs, pour que notre echantillon soit aleatoire, il 
est necessaire de pouvoir constituer une liste de toutes les grappes de la population. 
Nous pourrons alors tirer au sort un echantillon de grappes en utilisant la technique 
decrite pour 1’echantillonnage aleatoire simple. Un echantillonnage par grappes ne 
nous donne une estimation non biaisee de la moyenne de la population qu’a la condi¬ 
tion que les grappes soient de tailles identiques et qu’elles soient suffisamment nom- 
breuses. Ces conditions sont souvent difficiles a remplir, ce qui risque d’entratner 
des biais d’estimation des normes. Pour un echantillon par grappes, 1’estimation de 
1’erreur type de la moyenne peut etre calculee au moyen de la formule suivante : 


I N- n X(y,-ym,) 
V NnM 2 n- 1 


( 6 . 8 ) 


N = nombre de grappes dans la population 
n = nombre de grappes selectionnees dans I’echantillon 
M - taille moyenne des grappes dans la population 
y, = total des scores dans la i-eine grappe 
i>ij - nombre de sujets dans la i-eme grappe 
y = moyenne des scores de I’echantillon 

Une question que se posent frequemment les praticiens lorsqu’ils definissent 
les normes d’un test concerne le niveau acceptable des erreurs d’estimation. De la 
reponse a cette question decoule la determination de la taille de I’echantillon neces¬ 
saire pour etablir les normes. Comme le souligne justement Angoff (1971, p, 558), 
« on ne pent nwllieiireiiseinent pas re pond re a cette question clans I’abstrait ». Le 
niveau acceptable des eixeurs d’estimation depend en effet de 1’usage qui sera fait 
des normes et du cout que nous sommes prets a consacrer a la constitution de ces 
dernieres. Or 1’arbitrage entre la precision et le cout est un probleme specifique a 
chaque situation. Le praticien doit en priorite prendre en compte I'importance des 
decisions qui seront prises sur la base des normes et mettre en balance le cout d’une 
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mauvaise decision et le cout d’une augmentation de la precision des normes. Pour 
aider le praticien, Angoff (1971) propose de prendre egalement en compte une regie 
simple : I’etTeur type de la moyenne ne devrait pas depasser de 14 % l’erreur type de 
mesure des scores a un test 


2.3 La transformation des scores 

Les resultats recueillis dans l’echantillon d’etalonnage ne sont habituellement pas uti¬ 
lises tels quels. Pour permettre une interpretation plus aisee des resultats de tests, les 
scores bruts de I’echantillon d’etalonnage sont generalement transformes et presentes 
sur une echelle familiere aux praticiens. II existe de nombreuses echelles destinees a 
exprimer les normes. Nous ne presenterons ici que les plus courantes. Nous explicite- 
roiis chaque fois la procedure de transformation des scores puis nous discuterons des 
avantages et inconvenients de I’echelle en question. 

2 . 3.1 Les echelles en niveaux d'age 

Les normes peuvent etre exprimees en termes d’ages moyens auxquels diverses per¬ 
formances sont reussies. Les sujets testes se verront alors attribuer un niveau d’age 
en fonction de leurs resultats bruts L’etalonnage en niveaux d’age se deroule selon 
les etapes suivantes : 

(1) Des echantillons de sujets pour les ages consideres sont constitues. Habituel¬ 
lement, un age est defi ni comme un intervalle plus ou moins large autour de 
Page en question. Par exemple, un echantillon d’enfants de six ans compren- 
dra des sujets ages de 6 ans plus ou moins 2 mois, c’est-a-dire situes dans 
1’intervalle 5 ans 10 mois - 6 ans 2 mois. 

(2) Le score moyen de chaque groupe d’age est calcule. 

(3) Eventucllcment, les scares de certaines Iranuhes d’age sont estimes par inter¬ 
polation. Cette procedure est utilisee lorsque certains ages n’ont pas ete inclus 


Moyenne 
des scores 



Figure 6.1 — Interpolation d’un niveau d’age 
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dans Pechantillon d’etalonnage ou que 1’on desire presenter des normes par 
mois, et pas settlement par annee. La procedure d’interpolation repose sur le 
postulat d’une progression lineaire des caracteristiques evaluees par le test. 
Elle consiste a calculer la valeur intermediaire entre les valeurs recueillies 
dans Pechantillon d’etalonnage. Par exemple, si le score moyen obtenu au test 
par les enfunts de 7 ans est de 14 points et que celui obtenu par les enfants de 
9 ans est de 18 points, on peut estimer que le score moyen des enfants de 8 ans 
est de 16 points (figure 6.1). 

Le niveau d’age le plus connu est certainement Page mental qui represente 
le niveau de developpement intellectuel atteint par un sujet. Mais on peut utiliser le 
principe du niveau d’age pour caracteriser n’importe quelle capacite ou aptitude (la 
motricite, la connaissance du schema corporel, etc.) pour peu que celle-ci varie avec 
Page. Ceci represente d’ailleurs la limite essentielle de Pexpression des normes en 
niveaux d’age. Ce principe est en effet inapplicable lorsque le trait mesure ne varie 
pas specif)quement avec Page (par exemple Panxiete) ou lorsqu’il est arrive au terme 
de son developpement (par exemple Pintelligence adulte). Par ailleurs, meme lorsque 
le trait mesure evolue avec Page, la correlation entre les variables « age » et « perfor¬ 
mance » est rarement partake. Pour que ce soit le cas, il faudrait que la relation entre 
1’evolution de Page et celle de la performance soit rigoureusement lineaire, ce qui est 
rarement le cas. Durant Penfance, les progres ne sont en effet pas proportionnels a 
Page et se font a des rythmes varies. Le lien entre age et performance est done assez 
lache. Par consequent, le niveau d’age attribue a une performance sera plus ou moins 
adequat en fonction du degre de correlation lineaire entre ces deux variables. 

Un autre probleme souleve par les niveaux d’age concerne leur interpretation. 
Ainsi, les praticiens ont souvent tendance a assimiler le raisonnement de tous les 
sujets de meme age mental. En fait, cette assimilation n’est pas en accord avec la 
realite psychologique. Un adulte handicape dont Page mental est de 8 ans ne raisonne 
pas comme un enfant de 8 ans de meme age mental. Dans le premier cas, nous avons 
affaire a une pensee figee, marquee par les stereotypies, alors que, dans le second 
cas, il s’agit d’une intelligence mobile dont 1’evolution n’est pas achevee. Les perfor¬ 
mances des deux sujets sont quantitativement similaires, mais les competences sous- 
jacentes sont loin d’etre identiques du point de vue qualitatif. 

Enfin, un dernier probleme pose par Putilisation des niveaux d’age provient 
de la relativite des unites d’age. Ainsi, un retard d’un an a 4 ans (age chronologique) 
n’a pas la meme valeur qu’un retard d’un an a 12 ans. Le meme probleme se pose de 
fagon plus evidente au niveau de la taille. Une difference de 5 cm est en effet beau- 
coup plus importante entre deux nouveau-nes qu’entre deux adultes. 

Pour resoudre cette difficult^, nous pouvons calculer un quotient en divisant le 
niveau d’age par Page reel du sujet. Il est possible de calculer non settlement des quo¬ 
tients intellectuels, mais aussi des quotients de developpement moteur, des quotients 
de memoire, etc. De cette fagon, nous evitons de considerer le niveau d’age comme 
une valeur absolue et nous Pinterpretons comme une valeur relative a Page chrono¬ 
logique. Si le niveau d’age d’un sujet evolue parallelement a son age chronologique, 
alors son quotient restera constant au cours du developpement. Toutefois, cette fagon 
de proceder ne doit pas nous faire oublier que le rapport ainsi calcule s’appuie sur 
une mesure en niveaux d’age dont nous avons souligne les serieuses f'aiblesses. 
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2 . 3.2 Les echelles en niveaux scolaires 

L’expression des normes en niveaux scolaires a d’importantes similitudes avec celle 
en niveaux d’age. La procedure d’etalonnage est en effet semblable, a cette difference 
pres que nous constituons des groupes de niveau scolaire (par exemple, l re annee 
primaire, 2 e annee primaire...) au lieu de groupes d’age. Une performance caracteris- 
tique d’une annee scolaire correspondra a la mediane ou a la moyenne des resultats 
des eleves. Nous considererons, par exemple, qu’un score brut donne est du niveau 
de la 4 C annee primaire s’il est obtenu par 50 % des eleves de cette annee scolaire. 

Les desavantages des niveaux scolaires sont similaires a ceux des niveaux 
d’age. Derriere la simplicity apparente de I’interpretation se cachent en effet les 
memes problemes, mais accentues. Parmi ceux-ci, le plus fundamental est que la 
correlation entre les niveaux scolaires et les niveaux de performance est loin d’etre 
parfaite. Pour que ce soit le cas, il f'audrait admettre que 1’evolution des acquis est 
reguliere et continue tout au long de l’annee, ce qui est peu vraisemblable. II faudrait 
egalement que la variabilite des performances entre les classes et les etablissements 
scolaires soit faible. Or, c’est le phenomene inverse qui est regulierement observe : le 
niveau moyen de performance varie fortement d’une ecole a I’autre, et meme d’une 
classe a I’autre. Cette variabilite est due aux caracteristiques sociologiques des popu¬ 
lations de chaque ecole, mais aussi aux differences de pratiques d’enseignement et 
de promotion (redoublements frequents ou non) entre les ecoles. En decoulent des 
recouvrements importants entre les performances des eleves des differentes annees. 
Dans ces conditions, prendre coniine reference le niveau moyen de performance cor- 
respondant a un niveau scolaire precis conduit souvent a d’importantes erreurs de¬ 
preciation et a des prises de decision inadequates. 

2 . 3.3 Les echelles en rangs percentiles 

La valeur d’un resultat peut etre exprimee en termes de place ou de rang au sein de la 
population. Les centiles (ou percentiles) sont une des modalites les plus frequentes de 
graduation des rangs. La distribution des resultats bruts est alors ramenee a 99 eche¬ 
lons afin qu’entre chaque echelon se trouve 1 % des sujets. Cette transformation des 
resultats en centiles s’appelle le centilage. La procedure de calcul des rangs centiles 
est presentee en detail dans le § 2.2 du deuxieme chapitre. 

Chaque valeur de la distribution est prise comme ordinale et non coniine car- 
dinale. Par exemple, le centile 80 indique la 80 e place et non 80 points. Dans ce cas, 
80 % des sujets ont des resultats bruts inferieurs a celui de l’individu teste Plus faible 
sera le resultat d’un sujet, plus bas sera le percentile et inversement. N’oublions done 
pas que, contrairement aux places d’un concours (la premiere place est attribute au 
meilleur resultat), dans une echelle en centiles, le premier rang est donne au score 
brut le plus faible et inversement. 

Dans la pratique, il n’est pas toujours necessaire ni possible d’etablir 100 
divisions, soit que la variable a moins d’extension, soit qu’une discrimination aussi 
detaillee n’est pas necessaire. On peut alors utiliser une notation en deciles (9 rangs) 
ou en quartiles (3 rangs) 

L’expression des normes en centiles (ou en deciles, ou en quartiles) presente 
un important inconvenient. Une telle distribution des notes est rectangulaire alors que 
la distribution des notes brutes est generalement normale. Autrement dit, la trans- 
fonnation en centiles ne respecte pas la forme de la distribution originate et modifie 
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done les rapports entre les resultats. Le probleme apparatt clairement sur la ligure 2. 
Au voisinage de la moyenne, les sujets sont nombreuxet, par consequent, les centiles 
sont ti es proches. Par contre. aux extremites de la distribution, les sujets se rarefient 
et les centiles sont done de plus en plus eloignes les uns des autres. Ainsi, Fecart 
entre le centile 50 et le centile 60 n’est pas egal a l’ecart entre le centile 80 et le cen- 
tile 90. II en decoule un serieux probleme de comparaison entre sujets. Les centiles 
ne nous renseignent que sur le rang d’un sujet, mais non sur Fecart qui le separe des 
autres, N’oublions pas que nous avons affaire a une echelle ordinale avec toutes les 
limites statistiques que cela represente. 

2 . 3.4 Les echelles en scores standard 

La transformation en scores standard resout differents problemes rencontres avec les 
percentiles. Cette transformation ne modifie pas la forme de la distribution des scores 
bruts car elle preserve au sein de la nouvelle distribution les relations numeriques 
existant dans la distribution originale (figure 6 2). En effet, pour chaque valeur de 
la distribution des notes brutes, nous ne faisons que retrancher une constante (X) 



-3 -2 -1 0 +1 +2 +3 

Scores T -i-1- >■ --—*---<-1 

20 30 40 50 60 70 80 

Q1 standard __,_,_,_,_, 

55 70 85 100 115 130 145 

Rangs percentiles ’ 5 10 203040 50 60 70 80 90 95 99 

Stanines 4% | 7% 12% 17% 1 20% 17%, 12% , 7% | 4% 

1 3 ' 4 ' 5 6 7 ^ 8 ' 9 

Figure 6.2 — Relation entre la courbe normale et les differents 
types de scores transformes 
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et diviser par' line constante (s). Si, pour une distribution donnee, nous representons 
graphiquement les coordonnees entre chaque score brut et le score standard corres- 
pondant, nous pourrons tracer une droite passant exactement par tous les points ainsi 
representes. Pour cette raison, la transformation en scores standard est qualifiee de 
lineaire puisqu’elle est du type Y = aX + b (voir annexe 1). Les echelles en scores 
standard peuvent etre considerees comme des echelles d’ intervalle dont elles posse- 
dent les avantages en termes de traitements statistiques. Comment s’effectue pratique- 
ment la transformation des scores bruts en scores standard ? 


II est tout d’abord necessaire de calculer la moyenne et I’ecart type de la dis¬ 
tribution des notes brutes. Connaissant ces valeurs, nous pouvons alors transformer 
chaque score brut en calculant la distance qui le separe de la moyenne avec une unite 
egale a I’ecart type. Nous obtenons ainsi des scores z. La formule de transformation 
en score z est la suivante : 


z, = 


X, - X 
s 


(6.9) 


Par exemple, si dans une distribution de scores bruts X = 60 et 5 = 5 alors : 


pour X - 65 
pour X - 58 


z = 65 60 = + 1,00 


5 

58 - 60 
5 


= - 0,40 


Les scores z out comme inconvenient de presenter des decimales et d’etre de signe 
negatif pour tous les scores inferieurs a la moyenne. C’est pourquoi il est d’usage 
d’utiliser une moyenne et un ecart type arbitrages qui permettent de transformer les 
scores bruts en des valeurs entieres et positives. Concretement, la procedure consiste 
a multiplier chaque score z pai' un meme ecart type puis a lui ajouter une meme 
valeur moyenne. Soulignons que cette procedure preserve le caractere lineaire de la 
transformation. La formule 6.9 devient alors : 

L = s' z , i X 7 (6.10) 


Ce qui peut s’exprimer de maniere plus detaillee : 


K = s' 


X -X 


+ X' 


( 6.1 1 ) 


Dans ces deux fortuities, s' et X' sont respectivement les valeurs arbitraires 
de I’ecart type et de la moyenne. II existe quelques valeurs courantes pour s' et X' : 

- pour la transformation en score T , s' = 10 et X' = 50 

- pour la transformation en Q1 standard , utilisee dans les echelles de Wechsler 
et bien d’autres tests, s' = 15 et X' = 100 


- pour la transformation en score CEEB (College Entrance Examination Board), 
s' =100 et X' = 500 


A titre d’exemple, reprenons les donnees presentees ci-dessus et transformons- 
les en scores T : 

fhS - Sill 

+ 50 = 60 


\ 5 ) 


pour X = 65 
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pour X = 58 Y = 10 ( 58 — 6 °] + 50 = 46 

Comine nous venous de le voir, la transformation en score standard presente des 
avantages certains. El le demande toutefois aux praticiens d’etre attentifs a la valeur 
de I’ecart type utilisee pour la transformation. De grossieres erreurs d’interpreta- 
tion des scores peuvent en effet decouler d’une meconnaissance de cette valeur. Par 
exemple, nous avons vu que les tests de Wechsler utilisent une moyenne de I 00 et un 
ecart type de 15 Parcontre, dans le Culture Free Test , Cattell utilise une moyenne de 
100 et un ecart type de 24. Par consequent, un sujet qui se situe a un ecart type en 
dessous de la moyenne aura un QI de 85 au test de Wechsler et de 76 au Culture Free 
Test. La difference entre. les scores transformes est importante, alors que la position 
du sujet dans la distribution des scores bruts est identique. On con^oit aisement le 
type d’erreur qui pourrait etre commise par simple ignorance des caracteristiques de 
1’echelle sur laquelle sont presentees les normes. 

2 . 3.5 Les echelles en scores standard normalises 

Nous avons vu que la transformation en score standard est une transformation lineaire 
qui ne modifie pas la forme de la distribution des scores bruts. Cependant, il est 
parfois raisonnable de penser que le trait mesure se distribue normalement et que la 
non normalite de la distribution des scores bruts resulte d’erreurs aleatoires d’echan- 
tillonnage. Ainsi, les constructeurs de tests d’intelligence s’appuient generalement sur 
le postulat d’une distribution normale de 1’intelligence au sein de la population. Dans 
ce cas, il est d’usage d’effectuer une transformation en scores standard qui va rendre 
normale la distribution des scores bruts. Cette transformation est interessante car la 
distribution normale possede des caracteristiques bien connues et les resultats sont 
des lors plus faciles a interpreter. Nous avons vu dans la section 3 du chapitre 2 que 
nous connaissons precisement le pourcentage de cas qui se situent en dessous et au- 
dessus de chaque valeur de la distribution normale reduite. 

Puisqu’elle modifie la forme de la distribution d’origine, la transformation 
en score standard normalise est non lineaire. La technique de transformation la plus 
simple se fait en deux etapes. Les scores bruts sont tout d’abord transformes en per¬ 
centiles en utilisant la fvrmule presentee dans la section 2 du chapitre 2. Les per¬ 
centiles ainsi obtenus sont ensuite transformes en scores z a 1’aide de la table de la 
distribution normale reduite. Par- exemple, si un score brut correspond au percen¬ 
tile 80, nous chercherons dans la table de la distribution normale reduite la valeur 
de z sous laquelle se trouvent 80 % des cas. En f occurrence, cette valeur est egale 
a 0,84. Si nous operons de la sorte pour tous les scores bruts de la distribution, nous 
ferons correspondre a chacun de ceux-ci des scores ? dont la distribution sera parfai- 
tement normale. Pour eviter les valeurs decimales et negatives des scores z, il nous 
suffira d’appliquer la formule de transformation presentee plus liaut en utilisant une 
moyenne et un ecart type adequats. Dans notre exemple, nous pourrions ainsi faire 
correspondre a 0,84 la valeur 113 au sein d’une distribution dont la moyenne est egale 
a 100 et l’ecart type est egal a 15. 

Dans certains cas, la transformation que nous venous de decrire procure une 
echelle inutilement fine pour fusage auquel le test est destine. Par exemple, si nous 
souhaitons evaluer le niveau de connaissance en anglais que possedent des adultes 
afin de les orienter vers differents programmes de perfectionnement, nous n’aurons 
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pas besoin d’un test gradue en cent echelons. La normalisation se fait alors selon un 
nombre de categories plus limite. La transformation en stanine (« standard nine »j 
en est un exemple bien connu (ligure 2). Dans ce cas, les scores standard normalises 
sont limites a 9 avec une moyenne egale a 5 et un ecart type approximativement egal 
a 2. Le stanine 5 au centre de la distribution (des rangs percentiles 40 a 59) contient 
20 % des cas. Le premier et le dernier stanine contiennent 4 % des cas, le second et 
le huitieme 7 %, le troisieme et le septieme 12 %, le quatrieme et le sixieme 17 %. 

La ligure 6.3 illustre la relation existant entre les scores bruts et les rangs cen- 
tiles. Lorsque la distribution des scores bruts est paifaitement normale, cette relation 
prend la forme d’une ogive normale (celle d’un « s » allonge). Mais habituellement, 
du fait d’erreurs d’echantillonnage, les coordonnees entre les scores bruts et les rangs 
percentiles ne correspondent qu’approximativement a cette courbe. Cela signilie 
qu’en fonction des echantillons, un meme score brut peut correspondre a differents 
rangs percentiles Pour attenuer cet effet de I’erreur d’echantillonnage, nous pouvons 
recourir a la technique cl it lissage qui complexifie quelque peu la procedure de nor¬ 
malisation. La maniere la plus rigoureuse d’effectuer le lissage constitue a determiner 
la fonction mathematique qui s’ajuste le mieux aux coordonnees entre scores bruts et 
rangs percentiles. Sur la base de cette fonction, nous pouvons alors tracer la courbe 
lissee. Les differents points de cette courbe constituent les nouvelles coordonnees 
entre les scores bruts et les rangs percentiles, Nous obtenons ainsi une correspon- 
dance entre la distribution originale des scores et une distribution des scores dans 
laquelle les erreurs d’echantillonnage out ete nettoyees. A title d’exemple, nous avons 
represente dans la figure 6.3 la relation entre un score brut de 20 et le centile 50 qui 
lui correspond. Partant des rangs centiles, nous determinons ensuite les scores z (et 
eventuellement les scores standard) selon la procedure decrite plus haul. 

La procedure de lissage suppose que la distribution des scores bruts de 
I’echantillon ne s’ecarte pas trop de celle de la population. En effet, si I’ecart est 
important, la courbe lissee risque d’etre mal estimee et de s’ecarter sensiblement de 


Rangs 

centiles 



Figure 6.3 — Representation graphique de la relation 
entre scores bruts et rangs percentiles 
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celle qui pourrait etre tracee sur la base des scores de la population. Par consequent, 
1’utilisation de la procedure de lissage suppose un echantillonnage rigoureux en vue 
de minimiser les erreurs d’estimation. 

D’une maniere generate, la transformation en scores standard normalises n’est 
envisageable que si la distribution des scores bruts est relativement proche de la dis¬ 
tribution normale. Par ailleurs, 1’existencc an sein de la population d’une distribu¬ 
tion normale du trait mesure doit etre conceptuellement plausible. Par exemple, il est 
logique que la distribution des scores a un questionnaire de depression presente une 
forte asymetrie negative. La majorite des sujets tout-venant auront en effet un score 
de depression ties faible. Par contre, les sujets deprimes auront des scores qui s’etale- 
ront vers la droite de la distribution. Normaliser une telle distribution n’aurait aucun 
sens. La procedure de normalisation des scores ne peut done pas etre appliquee de 
maniere automatique. Elle doit s’appuyer sur une analyse detaillee de la distribution 
des scores bruts et sur une comprehension effective de la realite mesuree. 

3. Equivalence entre les scores 
de differents tests 

3.1 Conditions pour la mise en equivalence de scores 

Le praticien peut etre amene a comparer des resultats obtenus a differents tests mesu- 
rant une meme realite. Pour effectuer une telle comparaison, il est necessaire de 
rendre equivalents les scores aux tests consideres. Ceci implique que les scores d’un 
des tests soient convertis dans la metrique de Pautre test On note habituellement y* 
les scores au test X convertis dans la metrique du test Y. La mise en equivalence des 
scores de deux tests est qualifiee d’ horizontcile lorsque ces tests out le meme degre de 
difficult^. On parlera de mise en equivalence verticcile lorsque les deux tests ont des 
niveaux de difficult^ differents. C’est le cas lorsque Ton veut mettle en equivalence 
les resultats de tests d’aptitude construits pour evaluer des sujets appartenant a diffe- 
rentes tranches d’ages. 

Le principe general de la mise en equivalence peut etre il lustre par la conver¬ 
sion des degres Fahrenheit en degres Celsius. Dans ce cas, les deux thermometres 
utilises mesurent une meme realite, a savoir la temperature, mais sur des echelles 
differentes. La conversion en degres Celsius (*C) des temperatures relevees en degres 
Fahrenheit (°F) s'effectue en soustrayant 32 de la temperature exprimee en Fahren¬ 
heit et en multipliant le resultat par 5/9. Selon cette formule de conversion, 50° F 
sont equivalents a 10° C. Une fois la conversion effectuee, toutes les temperatures 
enregistrees initialement en degres Fahrenheit sont strictement equivalentes a celles 
enregistrees en degres Celsius. Du fait de cette possibility de mise en equivalence, 
il est indifferent d’observer les temperatures a l’aide d’un thermometre gradue en 
degres Fahrenheit ou en degres Celsius. 

Cette propriete des scores mis en equivalence se retrouve dans le cas des tests 
En elfet, selon Lord (1977, p. 128), « des scares tmnsfonnes v* et des scares bruts 
v peiivent etre qualifies d ‘equivalents si et settlement s 'il est indifferent que les sujets 
soient evalues avec le test X au le test Y ». Pour que les scores a deux tests X et Y 
puissent etre mis en equivalence, un certain nombre de conditions doivent des lots 
etre remplies (Lord, 1980) : 
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(1) Les deux tests doivent mesurer la nieme caracteristique. 

(2) Les mesures realisees avec les deux tests doivent etre equitables. Cela signilie 
que ceilains sujets ne doivent pas etre defavorises en passant le test X plutot 
que le test Y, et reciproquement. Pour que cette equite soit garantie, il est 
necessaire que le score vrai d’un sujet au test Y soit identique a son score 
vrai au test Y* (c’est-a-dire au test X dont les scores out ete convertis dans la 
metrique du test Y). II faut egalement que I’erreur de mesure soit egale au test 
Y et au test Y*, 

(3) La conversion doit etre indilf'erente aux groupes qui out servi a elaborer les 
tables de transformation des scores, 

(4) La conversion doit etre symetrique. Cela signifTe qu’il est indifferent de reali¬ 
se!' la transl'ormation du test X vers le test Y ou du test Y vers le test X. 

Ces conditions sont d’evidence difficiles a satisfaire dans la pratique. Pour 
que ce soit le cas, il f audrait que les tests X et Y soient strictement paralleles, ce qui 
est pratiquement impossible. En particulier, la seconde des quatre conditions est sans 
doute celle qui souleve le plus de problemes (Petersen et al„ 1988), 11 est en effet 
peu vraisemblable de pouvoir construire deux tests dont la fidelite serait egale a tous 
les niveaux d’aptitude et qui presenteraient des lors des distributions de frequences 
conditionnelles identiques Certains psychometriciens (Morris, 1982) out done sug- 
gere de remplacer cette condition d’equite forte par une condition d’equite f'aible. 
Selon celle-ci, seul le score moyen conditionnel doit etre identique au test Y et au 
test Y :|: . En d’autres termes, le score cittencht d’un sujet doit etre le meme avec le test 
Y qu’avec le test Y*. Cette exigence, certainement plus realiste, rend possibles des 
mises en equivalence dans le cadre de la theorie classique des scores. 

Toutefois, nous devons reconnaitre que, dans les l'aits, ces mises en equivalence 
restent souvent approximatives, car les conditions requises ne sont qu’imparfaitement 
remplies. N*us simmes ici confr«ntes aux limites de la theorie classique. Nous ver 
rons dans le chapitre 7 que les modeles de reponse a Litem apportent des solutions 
certainement plus satislaisantes aux problemes de mise en equivalence. Nous pre- 
sentons cependant les deux techniques de mise en equivalence les plus frequemment 
utilisees dans le cadre de la theorie classique, car ellcs sont les seules applicables 
lorsqu’on ne dispose que de petits echantillons. Ces deux techniques sont la mise en 
equivalence lineaire et la mise en equivalence equipercentile. 

3.2 La mise en equivalence lineaire 

Cette technique est basee sur le postulat d’une relation lineaire entre les scores au 
test X et au test Y. On suppose alors que les distributions des scores aux deux tests ne 
different que par leurs moyennes et leurs ecails types. Si e’est le cas, nous pouvons 
ecrire que : 

y = a.\ + b (6.12) 

ou a - — 

• V v 

b = Y - i-X 
s \ 

La I'ormule de conversion des scores au test X dans la metrique du test Y s’ecrit des 
lors : 
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y=^(x-X) + Y (6.13) 

U 

Puisque la relation entre les deux distributions est lineaire, des scores equivalents 
au test X et au test Y correspondent au meme score z. 11 est par consequent possible 
de realiser la conversion des scores entre les deux tests via la correspondance des 
scores z. 

La mise en equivalence lineaire peut se f'aire en utilisant divers plans expe- 
rimentaux. Le plus simple consiste a faire passer les deux instruments a un meme 
groupe de sujets. Souvent, l’ordre de passage de chaque test est determine de maniere 
aleatoire pour eviter un effet d’ordre. L’inconvenient de cette procedure est d’etre 
assez lourde pour les sujets qui, tous, doivent passer les deux tests. Pour cette raison, 
on prefere parfois utiliser un autre plan experimental ou chacun des tests est passe 
par un groupe different de sujets. Pour ces derniers, la procedure est ainsi plus legere. 
Pour les praticiens par contre, elle exige de constituer les groupes de maniere stricte- 
ment aleatoire afin de garantir leur equivalence statistique. 

Un troisieme plan experimental consiste a f'aire passer chaque test a des 
groupes differents tout en administrant a chacun de ceux-ci une epreuve commune 
relativement courte, qualifiee de test d’ancrage. L’interet de cette procedure est de 
maintenir dans des limites raisonnables le temps de passation de chaque sujet, tout en 
controlant I’equivalence des differents groupes. L’usage d’un test d'cmcrage implique 
toutefois des exigences supplementaires (Angoff, 1971, p. 578). II f'aut tout d’abord 
que le test d’ancrage soil correle avec les tests a mettre en equivalence. Utiliser, par 
exemple, une epreuve de psychomotricite pour mettre en equivalence des tests de 
vocabulaire n’aurait guere de sens. De plus, le test d’ancrage doit representer une 
tache equivalente pour les differents groupes de sujets. Par ailleurs, bien que sa forme 
generate soit la meme, l’equation permettant de determiner les scores y* est sensible- 
ment plus complexe que pour les autres plans experimentaux Dans cette equation, la 
lettre « z » designe les scores au test d’ancrage Z. L’indice « 1 » est utilise pour les 
scores au test Z du groupe ayant passe le test X et I’indice « 2 » est utilise pour les 
scores au test Z du groupe ayant passe le test Y. 

V* = £t(,v - c) + d 

Detaillons les differentes composantes de cette formule : 

s;+b; Z2 (sl - si) 

4 + b U (4 - 4 ,) 



(6.14) 

(6.15) 


s 2 x = variance des scores du premier groupe au test X 
s 2 y = variance des scores du second groupe au test Y 
si = variance des scores des deux groupes au test Z 
= variance des scores du premier groupe au test Z 
s 2 ^ = variance des scores du second groupe au test Z 
b XZi = pente de la droite de regression de X sur Z (groupe 1) 
b l7 , = pente de la droite de regression de / sur Z (groupe 2) 

c = X + b XA (Z - Z ) 

X = moyenne des scores du premier groupe au test X 


(6.16) 



264 


Transformation et interpretation des scores 


Tableau 6.2 — Moyennes et variances des scores de deux groupes 
a deux tests et a un test d'ancrage. 



Test 1 

Test d'ancrage 

Test 2 

Groupe 1 

X = 23,097 

Z, = 12,464 


sj = 58,338 

= 85,618 


Groupe 2 



Y= 19,506 



sj= 69,655 

Groupe 1 + Groupe 2 


Z= 12,949 
$]= 78,562 



Z = moyenne des scores des deux groupes au test Z 
Z, = moyenne des scores du premier groupe au test Z 

cl = Y +b„ 2 (Z-Z 2 ) (6.17) 

Y = moyenne des scores du premier groupe au test Y 
Z, = moyenne des scores du second groupe au test Z 

Un exemple permettra d’illustrer cette derniere technique de mise en equiva¬ 
lence lineaire. Le tableau 6.2 presente les moyennes et les var iances des scores de 

deux groupes aux deux tests a mettre en equivalence ainsi qu’a un test d’ancrage. 

Par- ailleurs, la valeur de la pente de la droite de regression de X sur Z et celle de Y 
sur Z ont ete calculees selon la procedure presentee en annexe. Ces valeurs sont les 
suivantes : 

b m = 0,598 et b, Y _ = 0,623 

A partir des differents resultats dont nous disposons. nous pouvons calculer les 
valeurs de a, c et cl: 

1 69,655 + 0,623 } (78,562 - 70,694) , , ,, 

a = , -----= 1,141 

V 58,338 + 0,598 (78,562 - 85,618) 

c = 23,097 + 0,598(12,949 - 12,464) = 23,387 

cl = 19,506 + 0,623(12,949 - 13,433)= 19,205 

Grace a ces valeurs, nous pouvons a present calculer le score y ! “ qui correspond a un 
score x donne. Par exemple, si .v = 18, alors : 

y* = 1,141(18- 23,387)+ 19,205 = 13,058 s 13 
Cette derniere valeur signilie qu’un score de 1 8 points sur le premier test est equiva¬ 
lent a un score de 13 points sur le second test. 

3.3 La mise en equivalence equipercentile 

La mise en equivalence lineaire repose sur des postulats particulierement exigeants qu’il 
est difficile de satisfaire dans la pratique. Pour cette raison, line procedure s’appuyant 
sur des postulats plus faibles peut etre preferee : la mise en equivalence equipercentile. 
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Figure 6.4 — Illustration graphique de la procedure 
de mise en equivalence equipercentile 

Cette procedure est toutef«is plus compliquee a mettre en ceuvre que la mise en equi¬ 
valence lineaire. De plus, elle tend a produire des erreurs de mise en equivalence sen- 
siblement plus importantes. Selon cette methode, des scores au test X et au test Y sont 
consideres comme equivalents si leurs rangs percentiles sont egaux. Concretement, la 
procedure de mise en equivalence equipercentile est la suivante : 

(1) Un groupe passe les deux tests dont les scores doivent etre mis en equiva¬ 
lence (ou deux groupes equivalents tires aleatoirement au sein d’une meme 
population passent cliacun un des tests). 

(2) Pour chaque instrument, les equivalents percentiles des differents scores bruts 
sont calcules. 

(3) Pour chaque instrument, la relation entre les scores bruts et les rangs percen¬ 
tiles est representee graphiquement et les courbes sont lissees (voir section 
2.3.5). 

(4) Les scores bruts des deux instruments sont mis en equivalence via les percen¬ 
tiles coirespondants. La figure 6.4 illustre cette derniere etape de la procedure. 
Les deux courbes lissees des tests X et Y sont tracees sur le meme graphique. 
II est alors aise de mettre en relation les percentiles et de determiner les scores 
bruts qu’ils representent dans chaque distribution des scores bruts. Ainsi, dans 
la figure 6.4, un score de 20 au test X est considere comme equivalent a un 
score de 25 au test Y. car ils correspondent tous les deux au percentile 50. 

3.4 La moderation statistique 

La moderation statistique est une procedure de transformation des scores particulie- 
rement repandue en education. Elle consiste a ajuster les notes obtenues a une eva¬ 
luation specifique par les eleves d’une meme classe ou d’un meme etablissement en 
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fonction de leurs resultats a une epreuve uniforme, generalement une epreuve unique 
administree a tous les eleves de la meme juridiction scolaire, locale ou Rationale. Le 
but de la moderation est d’assurer que les resultats issus du processus d’evaluation 
des apprentissages des eleves en classe soient comparables et ainsi d’introduire plus 
de justice et d’equite dans ce processus. II s’agit ainsi de s’assurer que les variations 
observees dans les modalites d’evaluation en classe et dans le jugement des ensei- 
gnants n’affectent pas indument les resultats des eleves. 

La moderation statistique, lorsqu’elle est employee a bon escient, parvient a 
co:rriger les var iations des resultats institutionnels. Les resultats moderes statistique- 
ment dependent cependant de Falgorithme de calcul employe et d’un certain nombre 
de choix administratifs et statistiques qui peuvent contribuer a changer les resultats 
individuels. Parmi les algorithmes de calcul principalement utilises, on retrouve ceux 
reposant sur la mise en equivalence lineaire et la mise en equivalence equipercen- 
tile (sections 3.2 et 3 3). La s’arrete cependant la correspondance, car la moderation 
statistique ne cherche pas a exprimer deux epreuves sur la meme echelle de mesure, 
mais plutot a assigner a une echelle de mesure (celle des notes de I’enseignant) la 
metrique de Fepreuve uniforme (celle de la juridiction nationale par exemple). 

Cet ajustement des notes des eleves accordees par l’enseignant en fonction 
des resultats de l’eleve et de son groupe a une epreuve uniforme repose sur la serie 
d’hypotheses suivantes : 

• Le classement des eleves par les enseignants est essentiellement le meme que 
le classement des eleves obtenus par l’epreuve de calibration. 

• Seule change la valeur absolue du resultat (en fonction du niveau d’exigence 
ou de severite de I’enseignant). La valeur relative (rang de I’eleve) par rapport 
a son groupe ne change pas. 

• Durant une certaine periode de temps, Fenseignant evalue les eleves essentiel¬ 
lement sur les memes connaissances et competences que Fepreuve uniforme 
(Burton et Linn, 1994). 

• Les resultats classe ou ecole portent sur les memes notions et contenus que 
l’epreuve uniforme. 

Du point de vue du public, la moderation vers le bas pose un plus grand pro- 
bleme que vers le haut (Wilrnut and Tuson, 2004:50, 7 6). En effet, un eleve peut 
trouver injuste de voir la note attribute par son enseignant diminuee parce que son 
groupe-classe a moins bien performe a I’epreuve uniforme. Peu importe la procedure 
de moderation statistique utilisee, il y aura toujours des moderations vers le bas qu’il 
faudra expliquer ou justifier au grand public. La moderation vers le bas peut etre la 
consequence d’un mauvais alignement de I’enseignement sur le curriculum scolaire 
officiel ou encore d’un trop grand laxisme dans Fattribution des notes de la part de 
Fenseignant 

Exemple de calcul 

Prenons Fexemple de calcul d’un eleve dont les resultats ont ete ajustes a 
la baisse. Eric a obtenu une note globale de 58 % pour son cours de Physique de 
12 e annee. La moyenne de son groupe-classe a ete de 72 % et les resultats des 24 
eleves de sa classe se sont distribues avec un ecart type de 7. A l’examen national, le 
groupe d’Eric a obtenu une moyenne bien inferieure a celle assignee par Fenseignant, 
soit 66 % pour un ecart type legerement moindre de 6. La moyenne des eleves a 
Fepreuve uniforme tend a indiquer que les eleves sont surevalues par leur enseignant 
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car leurs resultats y sont inferieurs. De plus, ils y sont moins disperses (ecart type 
= 6) que ceux de la note specilique a la classe ou a 1’ecole (note locale). Void la liste 
des donnees de notre exemple et leur representation symbolique : 

JV. - note locale d’Eric = 58 

N. = moyenne des notes locales des eleves de la classe = 72 

S' - ecart type des notes locales des eleves de la classe - 72 

N" = moyenne des notes de la classe a 1’epreuve uniforme = 66 

S u = ecart type des notes de la classe a I’epreuve uniforme = 6 

N m = note locale d’Eric apres moderation statistique 

Aux fins de notre exemple, nous ntiliserons une procedure de transformation 
lineaire pour effectuer la moderation statistique. II s’agira dans un premier temps de 
calculer le score z d’Eric en rapport avec sa note locale : 

, N, AT 58 - 72 

Z = ' = -= - 2 

s, 7 

Dans un deuxieme temps, il s’agira de calculer a quel resultat a I’epreuve uniforme 
correspond le score z local calcule en effectuant la transformation lineaire suivante : 

N„, = (. s„ x Zi) + N„ = (6 x - 2) + 66 = 54 

La moderation statistique a done contribue a ajuster a la baisse la note attribute par cet 
enseignant a Eric en fonction de sa note locale et des resultats de son groupe-classe 
a l’epreuve uniforme. La note locale d’Eric passe done de 58 a 54 apres moderation. 
Dans la province de Quebec ou une procedure de moderation statistique est couram- 
ment employee (Cadre devaluation des apprentissages du Ministere de 1’Education, 
du Loisir et du Spoil du Quebec, 2011, section 7.5.2), la note finale d’Eric qui serait 
versee a son dossier de fin d’etudes secondaires, serait composee a parts egales de la 
note locale moderee et de la note a l’epreuve uniforme. Dans le cas d’Eric, ce resultat 
serait la moyenne de 58 et 54, soit 56. 

La moderation statistique n’est pas une panacee. A elle seule, elle ne peut reus- 
sir a corriger les problemes qui se produisent lorsqu’un enseignant dispense une for¬ 
mation qui n’est pas conforme aux objectifs du programme d’etudes ou qu’il n’evalue 
pas correctement les apprentissages vises pai' la formation (Wilmut & Tuson, 2004:6). 
C’est pourquoi dans plusieurs juridictions ou la moderation statistique est employee, 
celle-ci s’accompagne d’un minimum de procedures d’harmonisation (« social mode¬ 
ration ») visant a assurer un alignement de 1’enseignement et de I’evaluation sur les 
objectifs du curriculum qui servent a preparer les epreuves uniformes. L’amelioration 
de la moderation statistique ne vise pas a reduire le nombre de moderations par le 
bas, mais d’eviter les situations ou celles-ci sont extremes ou injustifiees a cause de 
graves anomalies dans le processus. 

En conclusion, la moderation statistique peut s’averer utile lorsque les hypo¬ 
theses de depart sont respectees et que les resultats de la moderation ne se traduisent 
pas par des changements extremes. Des moderations trop importantes a la hausse ou 
a la baisse sont le signe que quelque chose ne va pas dans I’alignement de I’enseigne- 
ment et de I’evaluation en salle de classe avec le programme d’etude prescrit. C’est 
pourquoi plusieurs juridictions privilegient une approche mixte et accompagnent les 
procedures de moderation statistique de procedures complementaires d’harmonisation 
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des pratiques (Devaluation entre enseignants (« social moderation » : Wyatt-Smith, 
Klenowski & Gunn, 2010) ou encore de procedures d’inspection des modalites d’eva¬ 
luation utilisees par les enseignants ou encore d’audit des etablissements ou des sys- 
temes d’evaluation scolaire. 

4. Le calcul d'un score seuil 

4.1 ^IDENTIFICATION D'UN SEUIL DE PERFORMANCE 

4.1.1 Le concept de seuil de performance 

Dans la section precedente, nous avons vu comment nous pouvions construire une 
echelle de mesure a partir des performances d’un echantillon representatif de la popu¬ 
lation. Les graduations ainsi determinees sont utiles pour comparer les performances 
d’un sujet a celles de la population a laquelle il appartient. Mais d’autres comparai- 
sons interessent egalement les praticiens. En particulier, ceux-ci peuvent desirer situer 
les performances d’un sujet par rapport a un niveau de performance souhaite. Dans ce 
cas, il est necessaire de determiner un score qui permettra de ranger les sujets en deux 
categories : ceux qui atteignent le niveau souhaite et ceux qui ne 1’atteignent pas. Un 
tel score de reference est qualifTe de score seuil. Pour un merne test, il est possible 
de fixer plusieurs scores seuils. Par exemple, pour un test de langue etrangere, nous 
pouvons determiner differents scores correspondant cliacun a un niveau necessaire 
pour faire partie d’un groupe d’apprentissage. 

Mais, le plus souvent, le praticien n’a besoin que d’un seul score seuil. C’est 
le cas lorsqu’il s’agit de decider si un eleve atteint un niveau de maitrise suffisant 
dans une matiere donnee Le score seuil est alors pris comme 1’indicateur d’un niveau 
minimum de competence. C’est egalement le cas lorsqu’il s’agit de decider si un 
candidat possede les competences necessaires pour occuper un poste de travail donne. 

Comment determiner un score seuil ? La reponse est loin d’etre triviale Les 
scores determines a partir d’impressions globales se sont, le plus souvent, reveles 
ties peu valides. Ainsi, pour les examens scolaires, il est d’usage d’estimer le pour- 
centage acceptable d’etreurs et, sur cette base, de determiner le resultat minimum 
souhaite Generalement, ce resultat est fixe a 50 ou 60 % de reponses correctes. La 
peilinence de ces valeurs est rarement fondee. Pour limiter au maximum les erreurs 
lots de prises de decision, il est necessaire d’utiliser des methodes plus rigoureuses 
pour determiner les scores seuil. Comme nous le verrons plus loin, les methodes 
actuelles restent imparfaites. Elies soulevent plusieurs problemes difficiles a resoudre. 
Des a present nous en soulignons deux. Le premier provient du fait que la plupart des 
variables mesurees sont continues alors que nous souhaitons evaluer les competences 
de maniere dichotomique (competent/non competent). Le second probleme decoule 
de notre difficulty a definir les competences minimales. Cette definition est souvent 
impregnee par la subjectivity des juges et reste, par consequent, relative. 

Depuis le debut des annees 1950 jusqu’aujourd’hui, un tres grand nombre de 
methodes ont ete creees pour determiner des seuils de performance les plus valides 
possible. Le lecteur interesse en trouvera une large presentation dans 1’ouvrage de V. 
de Landsheere (1988) « Faire reitssir, faire ecliouer ». Dans la presente section, nous ne 
detaillerons que les six methodes qui semblentetre aujourd’hui les plus utilisees (Kane, 
1994), Nous pouvons les ranger en deux grandes categories : (1) celles qui se basent sur 
le contenu du test et (2) celles qui se basent sur les performances des sujets. 
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4.1.2 Methodes basees sur le contenu du test 

Pour toutes ces methodes, plusieurs juges passent en revue le contenu des items et, 
sur cette base, decident du niveau de performance suffisant pour reussir le test. Les 
diverses methodes different par la technique utilisee pour atteindre cet objectif. Pour 
chacune d’elles, il existe plusieurs variantes que nous ne detaillerons pas ici. 

La met hod e de Nedelsky (1954) a ete creee pour le cas des items a choix de 
reponses. Pour chaque question, on demande aux juges de determiner les choix de 
reponse qu’un sujet, possedant une competence minimale, pourrait reperer comme 
incorrects. On peut des lots determiner la probability de repondre correctement a une 
question en choisissant une des alternatives restantes au hasard. Par exemple, si cinq 
choix de reponses sont proposes et qu’un sujet possedant une competence minimale 
peut determiner que trois de ces choix sont incorrects, le choix final de ce sujet ne se 
fera qu’entre les deux choix restants. Par consequent, en repondant au hasard, ce sujet 
a une chance sur deux de choisir la reponse correcte. Son score probable est done de 
1/2 (ou de 0,50). 

Une fois que I’on a determine par cette procedure le score probable a chaque 
item du test, on peut les additionner pour obtenir le score total probable pour I’en- 
semble du test. Chaque juge ayant precede de la soile, il faut calculer la moyenne 
entre les scores probables determines par les differents juges. Cependant, il faut bien 
se rappeler que le calcul d’une moyenne pour I’ensemble des juges n’est valable que 
s’il n’y a pas de cas extremes et que s’il existe deja un certain degre d’accord entre 
les juges. Trop de dispersion dans les evaluations des juges rendrait cette moyenne 
non representative des resultats. En fin de parcours, la valeur moyenne sera conside- 
ree comme le score le plus faible que peut obtenir un sujet possedant une competence 
minimale. Ce score delink ainsi un seuil entre les individus suffisamment competents 
et les individus insuffisamment competents. 

Le tableau 6.3 presente une illustration de la determination par un juge du 
score total probable pour un test de sept questions a choix multiple. Chaque choix 
de reponse est indique par une lettre. Le choix correct est indique en italique. La 
lettre est barree si le juge estime qu’un sujet possedant une competence minimale 
pourra determiner que ce choix est incorrect. Nous pouvons constater que la somme 
des scores probables est egale a 3,11. En d’autres termes, si un sujet possede une 


Tableau 6.3 — Determination du score seuil selon la methode de Nedelsky 


question 

reponses 

score probable 

1 

A SC D E 

1/2 = 0,50 

2 

4BCDE 

1/4 = 0,25 

3 

ABCDf 

1/3 = 0,33 

4 

ABCflE 

1/2 = 0,50 

5 

A SC B € 

1/1=1,00 

6 

4 B C D E 

1/5 = 0.20 

7 

ABfOE 

1/3 = 0,33 

total: 


3,11 
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Tableau 6.4 — Determination du score seuil suivant la methode d'AngoFf 


question 

% de reussites 

pourcentage/100 

1 

50 

0,5 

2 

70 

0,7 

3 

30 

0,3 

4 

0 

0,0 

5 

20 

0,2 

6 

80 

0,8 

7 

30 

0,3 

total: 


2,8 


competence minimale, il devrait obtenir an moins 3 points an test en question. La 
valeur de 3 points est ainsi le score seuil a ce test. La presente valeur n’a toutefois 
e'te' determinee que par un seul juge. Pour obtenir le score seuil de reference, il nous 
faudra encore calculer la moyenne des scores seuil determines par les differents 
juges. 

La methode d’Angoff (1971) est vraisemblablement la plus utilise'e aujourd’hui 
(Kane, 1994). Elle est applicable pour toutes les formes de questions, pour autant 
qu’elles soient cote'es de maniere dichotomique. Elle consiste a demander aux juges 
d’estimer la probabilite qu’un sujet posse'dant une compe'tence minimale aurait de 
reussir chacun des items du test. Cette me'thode est simple dans son principe, mais 
complexe dans sa realisation. [I n’est en effet pas facile de traduire la compe'tence 
minimale en termes de probabilite'. Pour cette raison, il est d’usage d’aider les juges 
dans leur tache en leur proposant d’imaginer un groupe de 1UU sujets posse'dant une 
compe'tence minimale et d’estimer le nombre d’entre eux qui re'pondraient correcte- 
ment a I’item en question Chaque juge calcule un score seuil au test en additionnant 
les proportions de reussites aux differents items. Le tableau 6.4 illustre cette proce'- 
dure. Le score seuil de reference est obtenu en calculant les moyennes des scores 
seuil determines par les diffe'rents juges. 

La methode d'Ebel (1972) est plus complexe que les deux pre'ce'dentes car on 
demande aux juges de prendre en compte la pertinence et la difficulte' des questions 
du test. Le travail des juges se de'roule habituellement en deux temps. Lors de la 
premiere e'tape, chaque juge est invite' a ranger les items dans un tableau en fonction 
de leur impoilance pour le programme d’apprentissage (ou pour l’activite profes- 
sionnelle...) et en fonction de leur degre' de difficulte'. Le tableau 6.5 pre'sente une 
illustration d’un tel classement. 

Une fois que tous les items out e'te' classe's, on demande aux juges d’estimer 
le pourcentage de questions de chaque cate'gorie susceptibles d’etre re'ussies par un 
sujet posse'dant une compe'tence minimale. Les proportions ainsi determinees sont 
alors multiplie'es par le nombre d’items correspondants. Par exemple, si le juge 
estime que le sujet sera capable de reussir 80 % des items importants et difficiles, 
il faudra multiplier le nombre d’items de cette cate'gorie par 0,8. Nous obtiendrons 
ainsi le score probable d’un sujet ayant une compe'tence minimale dans la cate'gorie 
d’items en question. Le score seuil au test est obtenu en additionnant les scores 
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Tableau 6.5 — Determination du score seuil suivant la methode d'Ebel 


importance et difficult^ 

nombre d'items 

proportion de reussite 

score probable 

Ires important 
- Ires difficile 

6 

0,8 

6x0,8 = 4,8 

-difficile 

8 

0,9 

8x0,9 = 7,2 

-facile 

6 

1,0 

1 x 6,0 = 6,0 


2 

0,7 

2x0,7 = 1,4 

-difficile 

4 

0,8 

4x0,8 = 3,2 

- facile 

4 

0,9 

4x0,9 = 3,6 

Peu important 
- Ires difficile 

2 

0,4 

2 x 0,4 = 0,8 

-difficile 

4 

0,5 

4x0,5 = 2,0 

- facile 

0 


Ox 0,0 = 0,0 

total: 



29,0 


probables aux differentes categories d’items. Enfin, le score seuil de reference est 
determine en calculant la moyenne des scores seuil determines par les differents 
juges. 

La methode de Jaeger (1989) permet d’eviter le probleme de la reference 
generate, et finalement assez abstraite, a un sujet possedant une competence mini- 
male. Cette methode, presentee pour la premiere fois par Jaeger en 1978, est beau- 
coup plus contextualisee que les precedentes. Elle a, par ailleurs, la caracteristique 


Tableau 6.6 — Determination du score seuil suivant la methode de Jaeger 


question 

doit-elle etre reussie ? 

score attendu 

1 

oui 

1 

2 

non 

0 

3 

oui 

1 

4 

oui 

1 

5 

oui 

1 

6 

oui 

1 

7 

non 

0 

8 

oui 

1 

9 

oui 

1 

10 

oui 

1 

11 

oui 

1 

12 

oui 

1 

total: 


10 
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d’etre iterative. Elle consiste en une suite de reevaluations des merries items associees 
a la communication de renseignements a propos de ces items. 

Avant d’evaluer les questions, les juges sont invites a passer eux-memes le 
test afin de se familiariser avec les items qu'ils vont devoir evaluer. II leur est ensuite 
demande, pour chaque item, de repondre par oui ou par non a la question suivante 
(tableau 6.6) : «• Tons les sit jets qui belief cieront d’lme decision favorable sur la base 
des resu!tats dn test [...} devraient-ils etre ca/tables de repondre correctement a cet 
item ? » (Jaeger. 1989, p.494). Les juges doivent ainsi explicitement faire reference 
aux sujets reels qui seront evalues avec le test (par exemple, les eleves qui recevront 
un diplome d’etudes secondaires sur la base des resultats au test). Lorsque tous les 
items out ete evalues une premiere fois, les juges sont informes des estimations de 
leurs collegues et du pourcentage de sujets ayant reussi chacun de ces items lots 
d’un pretest. Les juges sont alors invites a reevaluer tous les items. On leur montre 
ensuite le pourcentage de ceux qui echoueraient si leurs evaluations des items etaient 
effectivement utilisees a des fins de classement. Apres cela, les juges reevaluent une 
derniere fois F ensemble des items. Le score seuil de reference est determine en caL 
culant la mediane des scores seuil determines par chaque juge. 

4.1.3 Methodes basees sur la performance des sujets 

Ces methodes tentent de reduire la subjectivity dans la definition du score seuil en 
utilisant des donnees empiriques, en Foccurrence les resultats recueillis avec le test 
sur un echantillon de sujets. Pour que ces methodes soient efficaces, il est necessaire 
que les juges aient une experience suffisante des sujets qui vont avoir a passer le test. 
Lis vont en effet les classer en fonction de leur niveau de competence. La suite de la 
procedure consistera en la passation du test par les sujets prealablement classes et en 
la determination d’un score seuil sur la base des scores observes. 

Deux methodes principales s’appuient sur les performances des sujets : 

• Dans la met hode des groupes limites (Livingstone & Zielsky, 1982), les juges 
doivent selectionner au sein d’un groupe les sujets dont les competences sont 
proches du niveau minimum attendu. Ceux qui sont nettement plus faibles ou 
nettement plus forts sont done ecartes. Pour realiser correctement cette tache 
de selection, on choisit habituellement comme juges des enseignants ou des 
formateurs qui connaissent bien les participants de I'echantillon. Lorsque les 
sujets « limites » ont ete selectionnes, chacun de ceux-ci passe le test. Le score 
seuil est ensuite determine en calculant le score median de la distribution des 
resultats des sujets « limites ». Le score seuil ainsi calcule n’a, bien entendu, 
de valeur que si Fensemble des resultats est bien groupe autour de la mediane. 

• Dans la met hod e des groupes contrastes (Livingstone & Zielsky, 1982), les 
juges sont invites a classer les participants en deux groupes. D’un cote ceux 
qu’ils jugent competents et de I'autre ceux qu’ils jugent non competents. 
Tous les sujets passent ensuite le test. Le plus souvent le score seuil est alors 
determine a l’aide d’une technique graphique (figure 6.5). Les distributions de 
scores des sujets competents et des sujets non competents sont representees 
simultanement. Le point d’intersection entre ces deux distributions represente 
le score seuil. La valeur correspondant au point d’intersection reduit au maxi¬ 
mum les erreurs de classement des sujets. On minimise en effet le nombre de 
faux negatifs. e’est-a-dire de sujets classes comme non competents sur la base 
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Figure 6.5 — Determination du score seuil par la methode des groupes controstes 

de leur resultat au test alors que les juges les avaient estimes competents, et 
de faux positifs, c’est-a-dire de sujets classes coniine competents sur la base 
de leur resultat au test alors que les juges les avaient estimes non competents 
(voir tableau 6.7, section 4.2). 

4.1.4 Validite des scores seuils 

Toutes les methodes que nous venous de presenter font appel a des jugements dont les 
racines sont difficilement controlables. Cette part de subjectivite dans revaluation des 
items entraine une ceilaine relativite des scores seuil determines selon ces methodes. 
Deux groupes de juges evaluant le meme ensemble d’items peuvent ainsi determiner 
des scores seuil differents. 

Les specialistes de I’evaluation se sont done attaches a reduire la subjectivite 
des juges afin d’ameliorer la validite des scores seuil. On insiste a present sur la 
necessite d’utiliser un nombre suffisant de juges et de choisir ceux-ci de maniere alea- 
toire. II apparalt egalement necessaire de soumettre les juges a un entrainement pre- 
alable et de leur donner des instructions claires a propos du contexte d’usage du test. 

Un point qui a particulierement retenu 1’attention des chercheurs concerne la 
definition de la competence minimale. Nous avons vu que la plupart des methodes 
font appel a cette notion. Or les juges sont, au moins implicitement, influences par 
les performances des sujets qu’ils connaissent lorsqu’ils se construisent une represen¬ 
tation de la competence minimale. Celle-ci n’apparait jamais ex niliilo. Plutot que de 
tenter d’eliminer toute reference a des experiences anterieures (ce qui est impossible), 
il apparalt plus judicieux d’amener les juges a en prendre clairement conscience. 
C’est I’option prise par la methode de Jaeger. La prise de conscience des references 
subjectives conduit chaque juge a un meilleur controle des facteurs qui influencent 
ses propres estimations. 

Mais la volonte de controler la subjectivite des juges ne doit pas masquer une 
question plus essentielle : est-il vraiment possible de definir des competences mini¬ 
males ? Comme le fait ties justement remarquer de Landsheere (1988, p. 133), « le 
savoir ne se construit pas de flagon simplement additive et lineaire : la maitrise d’ttne 
nouvelle competence pent aider a la maitrise d'ltne autre cpti n ’avail pu se realiser 
anterieurement». Si tel est le cas, la reference a des competences minimales pour clas- 
ser des sujets et pour prendre des decisions a leur propos risque d’etre non pertinente 
et meme in juste. II n’est pas certain que la definition d’une competence minimale ait 
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toujours un sens, Avant de vouloir rassembler des juges et de les contraindrea respecter 
une methodologie complexe devaluation d’items, le praticien doit d’abord s’interroger 
sur la possibility et la pertinence de definir des competences minimales dans le domaine 
qu’il souhaite evaluer. 

4.2 L'utilisation d'un score seuil comme critere d'un trouble 

Les scores seuil ne sont pas seulement utilises pour determiner la competence des 
eleves. Ils servent egalement dans le domaine clinique comme critere de presence 
d’un trouble on de sa probable apparition. Par exemple, une performance a un test de 
langage oral inferieure a un score seuil peut permettre d’anticiper 1’apparition d’un 
trouble de la lecture un an plus tard. Sur la base de ce resultat, il sera possible de 
mettre en place un programme de remediation destine a eviter Papparition du trouble 
de la lecture. Cet exemple montre le role important que peut jouer le score seuil, 
puisqu’il va servir a identifier les enfants qui pourront beneficier d’un programme de 
remediation. Si ce score seuil a ete choisi adequatement, il permettra d’identifier un 
maximum d’enfants ayant reellement besoin d’aide. Ces derniers seront qualifies de 
« vrais positifs » (tableau 6.7). Ce score seuil devrait reduire au minimum le risque de 
negliger des enfants ayant besoin d’etre aides (faux negatifs) et de prendre en charge 
des enfants qui n’en out pas besoin (faux positifs). 

Sur la base du score seuil, il est possible de calculer plusieurs indicateurs de la 
validite diagnostique d’un test : 

• La sensibilize correspond au tciux de vrais positifs , c’est-a-dire a la proportion 
d’individus identifies comme souffrant d’un trouble sur la base de leur score 
au test qui se revelent etre effectivement malades. Elle se calcule a 1’aide de 
la for mule VP/(VP+FN). Une sensibilite egale a 1 signifie que ]00 % des per- 
sonnes identifi ees comme malades par le test le sont effectivement. Les valeurs 
inferieures a 1 indiquent qu’un certain pourcentage de sujets malades ne sont 
pas identifies par le test (faux negatifs). 

• La specificite correspond au taux de vrais negatifs, c’est-a-dire a la propor¬ 
tion d’individus consideres comme sains sur la base de leur score au test qui 
sont effectivement en bonne sante. Elle se calcule a 1’aide de la formule VN/ 
(VN+FP). Une specificite egale a 1 signifie qu’aucune personne saine n’est 
consideree comme malade sur la base du test (absence de faux positifs). 

• Le taux de faux positifs correspond a la proportion d’ individus qui sont errone- 
ment identifies comme malades sur la base de leur score au test. Il se calcule a 
1’aide de la formule FP/(FP+VN) et est egal a (1 - la specificite). 


Tableau 6.7 — Classification en fonction de la presence effective d'un trouble et 
de son anticipation sur la base du score a un test diagnostique 




Presence effective du trouble 



Oui 

Non 


Oui 

Vrais positifs 

Faux positifs 

Anticipation du trouble 

(VP) 

(FP) 

sur lo base du score au test 

Non 

Faux negatifs 
(FN) 

Vrais negatifs 
(VN) 
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Tableau 6.8 — Exemple de classification sur la base du score seuil 
a un test diagnosfique 



Presence effective du trouble 

Oui 

Non 


Presence du trouble sur la base 
du score seuil 

Oui 

80 

20 

WO 

Non 

30 

70 

WO 


110 

90 

200 


Le tableau 6.8 presente un exemple de classification de 200 patients sur la base 
d’un score seuil a un test de memoire. On postule que les patients dont le resultat 
est inferieur au score seuil presentent un risque de developper line maladie d’Alzhei- 
mer dans les cinq ans a venir. Par la suite, on constate que 80 personnes classees 
comrne etant a risque out effectivement developpe la maladie (vrais positifs). Par 
contre, 20 personnes classees coniine etant a risque n’ont pas developpe la maladie 
(faux positifs). Par ailleurs, 30 personnes qui out developpe la maladie n’avaient pas 
ete identifiees comme etant a risque sur la base de leur resultat au test (faux negatifs). 

En utilisant le score seuil clioisi, la sensibilite du test est egale a 0,73 et sa 
specificite a 0,78. Quant au taux de faux positifs, il est egal a 0,22, ce qui corres¬ 
pond a (1 - la specificite). La sensibilite et la specificite sont des valeurs inter- 
dependantes. Si nous modifions le score seuil pour augmenter la sensibilite, nous 
allons du meme coup diminuer la specificite. La figure 6.6 permet de comprendre 
aisement cette relation. Si nous deplaqons le score seuil vers la droite, le nombre 
de faux negatifs va diminuer et, du meme coup, la sensibilite du test sera meilleure. 
Mais cette amelioration se fait au prix d’une augmentation du nombre de faux posi¬ 
tifs et done d’une diminution de la specificite. Le phenomene inverse se produit si 
nous deplagons le score seuil vers la gauche. Le clioix du bon positionnement du 
score seuil doit des lors etre une decision inurement reflechie. Vaut-il mieux equi- 
Iibrer le pourcentage de faux positifs et de faux negatifs ? Ou avoir un pourcentage 



Figure 6.6 — Proportions de VP, VN, FP et FN en fonction du score seuil choisi 
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inferieur des uns ou des autres ? II n’y a pas de reponse absolue a cette question. 
Cela depend en eff'et des enjeux et des risques du diagnostic. Si le but est d’iden- 
tifier les enfants qui devraient beneficier d’une aide au developpement de leur lan- 
gage oral, reduire au maximum le nombre de faux negatifs est sans doute le bon 
clioix. Par contre, si le but est d’identifier les personnes qui risquent de developper 
une maladie d’Alzheimer, alors que nous ne disposons d’aucun traitement permet- 
tant d’empecher revolution vers la pathologie, le bon clioix est sans doute de dimi- 
nuer au maximum le nombre de faux positifs. En effet, l’annonce du pronostic a 
des personnes qui ne vont pas developper la maladie peut avoir des consequences 
prejudiciables. 

L’efficacite d’un test diagnostic en fonction des divers scores seuil peut etre 
evaluee au moyen des courbes ROC (Receiver Operating Characteristic). Ces courbes 
out ete initialement developpees dans le cadre de la detection des signaux radar et 
appliquees par la suite dans le champ medical pour le reperage de certains troubles. 
Aujourd’hui, elles sont de plus en plus souvent utilisees dans le champ du diagnostic 
psychologique (Swets, 1996). 

Pour tracer une courbe ROC, nous utilisons la sensibilite et le taux de faux 
positifs qui est egal a (1 - la specificite). La figure 6.7 presente deux exemples de 
ROC pour deux epreuves de memoire destinees a la detection precoce de la maladie 
d’Alzheimer. Chaque point de la courbe correspond aux coordonnees de la sensibi¬ 
lite et de (I - la specificite) pour chaque score seuil possible. Pour la coordonnee 
(0 ; 0), il n’y a aucun faux positif (taux de faux positifs = 0 %), ni aucun vrai posi- 
tif (sensibilite = 0 %). Pour la coordonnee (1 ; 1), il y a 100 % de faux positifs et 
100 % de vrais positifs. Pour la coordonnee (0 ; 1), le taux de faux positifs est nul 
et le taux de vrais positifs atteint 100 %. Dans ce cas, Pidentification des sujets est 
toujours exacte (aucune erreur de diagnostic). Par consequent, la courbe ROC d’un 
bon test diagnostique devra tendre vers ce point. C’est ce que nous observons dans 
le graphique de droite ou la courbe est nettement meilleure que dans le graphique 
de gauche. 



Figure 6.7 — Exemples de deux courbes ROC 
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Dans la ligure 6.7, la diagonale represente la situation oil le critere de classi¬ 
fication correspond au liasard, c’est a dire oil le taux de faux positifs et la sensibilite 
sont chacun de 50 %, ce qui correspond aux coordonnees (0,5 ; 0,5). Un bon test dia- 
gnostique devrait presenter une com be ROC superieure a la diagonale. Si la courbe se 
situe sous la diagonale, cela signifie que la qualite de la classification realisee a 1’aide 
du test diagnostique est inferieure a celle que 1’on aurait pu obtenir aleatoirement. 
L’aire entre la courbe et la diagonale pent etre calculee, associee a un test de signifi¬ 
cation statistique Ces informations sont particulierement utiles pour selectionner le 
meilleur indicateur diagnostique parmi plusieurs mesures possibles. 





1. De la theorie classique aux modeles 
de reponse a I'item 

La relativite des proprietes metriques des items est une caracteristique generate de la 
theorie classique des scores. Tous les indices que nous pouvons calculer dependent 
en ef'fet de 1’echantillon utilise. Ainsi, nous avons vu que la difficult^ d’un item (sa 
valeur p) est delinie comme la proportion des repondants qui repondent correctement 
a I’item. Par consequent, si les individus testes sont faibles, 1’item sera considere 
comme difficile. Par contre, s’ils possedent un niveau de competence eleve, Litem 
sera considere comme facile. Cette relativite de la valeur p a d’evidentes implications 
lors de 1’utilisation ulterieure des items. En elTet, la capacite des repondants etant 
appreciee sur la base d’une valeur p relative, le niveau de cette capacite sera lui- 
meme relatif. En d’autres termes, les caracteristiques des items sont dependantes du 
groupe de personnes et les caracteristiques des personnes sont dependantes des items. 

Le probleme de la relativite des proprietes metriques des items est paiticulie- 
rement aigu dans le cas d’une banque d’items (c’est-a-dire un vaste ensemble d’items 
dans lequel on puise pour construire des tests). En elf'et, les items qui la composent 
ne sont habituellement pas analyses avec le meme groupe de repondants A cliaque 
creation d’un nouvel ensemble d’items, une etude de leurs proprietes metriques est 
realisee. Les repondants utilises pour cette etude changent, mais aussi le moment ou 
le test est administre. Ce dernier point est crucial lorsqu’il s’agit d’items evaluant des 
acquis scolaires. En el'fet, les eleves testes en octobre ont generalement un niveau de 
competence inferieur a celui des eleves testes en mai car les premiers sont en debut 
d’apprentissage alors que les seconds ont beneficie d’une longue periode d’exer- 
cice. Par consequent, les items qui composent la banque auront des caracteristiques 
metriques non comparables. Comment des lors composer un test avec de tels items ? 

Pour construire une banque d’items efficace, I’ideal est de pouvoir obtenir des 
caracteristiques d’items independantes du groupe qui a permis de les calculer. Pour 
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de nombreuses applications en psychologie et en education, il apparait tres utile de 
pouvoir construire des echelles de niesure independantes d’un groupe particulier. En 
effet, la signification du score total a de telles echelles n’est plus relative aux carac- 
teristiques d’un groupe particulier. Une tentative pour developper des echelles de ce 
type a cte faite au debut des annees 1950 par Guttman dans le but de mesurer des 
attitudes. Sur une echelle de Guttman, un sujet qui repond par I’affirmative a une 
question refletant une attitude tres marquee doit egalement repondre par I’affirmative 
a une question refletant un degre moins marque de la nierne attitude. Et reciproque- 
ment. Une illustration d’une echelle de Guttman utilisee dans le cadre du modele 
piagetien du developpement cognitif est presentee dans le chapitre 4 (t? 4.1). 

Lorsque nous sommes en presence d’une echelle de Guttman parfaite, la seule 
connaissance du score total nous permet de determiner avec exactitude les scores 
obtenus a chacun des items, Les resultats a un test qui satisfait les exigences du 
modele de Guttman peuvent etre qualifies i\' homogenes, d’linidimensiomiels et de 
ficleles (Angoff, 1971, p. 529). En effet, tous les items de ce test evaluent un seul 
et meme trait psychologique et permettent de situer de maniere tres precise ce trait 
sur le continuum mesure. Dans la realite, de tels tests sont rares, car les exigences 
du modele de Guttman sont difficiles a satisfaire. La performance des repondants 
doit en effet etre entierement determinee par leur seule position sur le continuum 
mesure. Aucune autre variable ne doit influencer cette performance. Pour cette raison, 
le modele de Guttman est qualifie de strictement deterministe (Matalon, 1965, p. 33). 

La figure 7.1 illustre de maniere graphique le modele deterministe propose 
par Guttman. Le trait mesure est represente en abscisse et la probability de reussir 
Litem est representee en ordonnee. Selon le modele de Guttman, un item a une pro¬ 
bability nulle d’etre reussi au-dessous d’un certain niveau de capacity. Par contre, 
a partir de ce niveau et au-dessus de celui-ci, la reussite de Litem est certaine. Ce 
passage d’une probability nulle a une probability egale a 1 est represente par une 
droite perpendiculaire a 1’abscisse (A). Du fait des inevitables erreurs de mesure, on 
comprend aisement qu’il soit peu vraisemblable de rencontrer une telle situation dans 
la realite. Pour cette raison, des modeles probabilistes out aujourd’hui remplace le 
modele deterministe de Guttman. Dans ce cas, plus le sujet se situe a un niveau eleve 



Figure 7.1 — Modele deterministe (A) et modele probabiliste (B) 
de reponse a un item 
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sur le trait, plus sa probability de reussir I’item augmente. La courbe B illustre cette 
elevation progressive de la probability de reussite en fonction du degre de capacity. 

Les modeles probabilistes s’appuient sur le postulat qu’une reponse correcte 
a I’item est determinee par le trait mesure, la difficulty de I’item et la discrimination 
de I’item. En d’autres termes, la probability de reussite d’un item est une fonction 
du trait mesure et des proprietes metriques de I’item (sa difficulty et sa discrimi¬ 
nation). Les psychometriciens out propose divers modeles de relation f'onctionnelle 
entre I’item et le trait mesure. Ces modeles partagent le postulat que tous les items 
d’un test mesurent une meme caracteristique, mais que la distribution des reponses a 
ces items peut etre affecte par des erreurs aleatoires. Tous ces modeles out egalement 
pour objectif de permettre, d’une part, une estimation des proprietes metriques des 
items invariantes au travel's des populations et, d’autre part, une estimation des traits 
independante des items utilises pour les mesurer. 

Les modeles probabilistes sont aujourd’hui ('assembles dans la categoric gene- 
rale des modeles de reponse a I'item (MRT). Nous presentons les plus importants de 
ces modeles dans la section suivante 

2. La fonction caracteristique de I'item 

Le postulat de base des MRT est que la performance a un item peut etre expliquee par 
un facteur appele trait latent. Ce dernier terme a ici un sens ties general. En effet, le 
trait latent peut etre un trait de personnalite, une aptitude cognitive, une competence 
scolaire, etc. 

La relation entre les performances a I’item et le trait latent peut etre decrite 
au moyen d’une fonction appelee fonction caracteristique de I’item. 11 s’agit d’une 
fonction logistique representee par une courbe qui prend la forme d’un S plus ou 
moins allonge. Cette courbe, appelee courbe caracteristique de I’item (CCI), a deux 
asymptotes : les droites d’equation y = 0 et y = 1. La figure 7.2 presente un exemple 
de CCI. Le trait latent apparait en abscisse et est traditionnellement represente par la 
lettre grecque 0 (tlieta). Le niveau de difficulty moyen des items au sein d’un groupe 
est represente par la valeur 0 Sur la figure 7.2, nous avons indique des graduations 



Figure 7.2 — La courbe caracteristique de I'item 
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allant de -3 a + 3 de part et d’autre de 0. Un item situe an niveau -3 est ties facile, 
alors qu’un item situe au niveau 3 est tres difficile. Si nous souhaitons incline des 
niveaux de difficulty encore plus faibles ou plus eleves, nous pouvons bien entendu 
faire debuter la graduation de 1’abscisse par line valeur inferieure a -3 et Petendre 
au-dela de +3. 

Sur le meme graphique, la probability de donner une reponse correcte a I’item 
apparait en ordonnee. Les valeurs de v s’etendent de 0 a 1 Plus un individu se situe 
a un niveau eleve sur le trait latent, plus sa probability de repondre correctement a 
I’item est grande, et reciproquement. La probability de reussite depend egalement 
de la difficulty de I’item. A valeurs egales de 0, la valeur de y augmente on diminue 
selon ce niveau de difficulty. Par convention, la valeur qui represente la difficulty d’un 
item est egale a la valeur de 0 pour laquelle la probability de donner une reponse cor¬ 
recte est de 0,5 qui coixespond au point d’inflexion de la CCI. Sur la figure 3, I’item 
correspondant a la courbe A possede une difficulty egale a - 1 et I’item correspondant 
a la courbe B possede une difficulty egale a +1. Le niveau de difficulty d’un item 
represente un premier parametre permettant de decrire la CCI de cet item. 

L’unite de mesure de 1’echelle de difficulty est le logit. A la difference de 
I’echelle des scores bruts, qui n’est qu’une echelle ordinale, 1’echelle graduee en logit 
est une veritable echelle d’intervalle Un ecart d’une unite entre deux items repre- 
sente en effet une meme difference de difficulty tout au long de 1’echelle. II ne s’agit 
toutefois pas d’une echelle proportionnelle, faute d’un zero absolu. Le centrage de 
1’echelle sur le niveau de difficulty moyen des items dans le groupe qui sert au cali- 
brage de ces derniers reste done relatif. Nous en reparlerons plus loin lorsque nous 
aborderons la procedure de liaison. Le logit est une valeur derivee du rapport de 
vraisemblance de la reussite (odds, en anglais). Le rapport de vraisemblance de la 
reussite d’un evenement coniine « obtenir 6 tors d'un jet de de » est egal au rapport 
entre la probability de cet evenement (1/6) et I’evenement complementaire (1-1/6), 
e’est-a-dire a 1/5 ou 0,20. Lc logit est le logarithme neperien de ce rapport (log-odds 
unit). II correspond a I’accroissement d’aptitude necessaire pour augmenter le rapport 



Figure 7.3 — CCI pour trois items donf la difficulty et la discrimination different 
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de vraisemblance de la reussite d’un item par un facteur de 2,71 (= exp(l)). Une 
presentation plus detaillee de la notion de logit peut etre trouvee dans l’ouvrage de 
Penta, Arnould et Decruynaere (2005). 

La difficulty n’est pas Ie seul parametre en jeu dans la definition de la CC1. 
Un second parametre important est la capacite de I’item a discriminer les sujets. La 
discrimination d’un item est representee par la pente de la CC1. Celle-ci peut etre 
plus ou moins inclinee. Plus la pente est abrupte, plus I’item est discriminatif, et 
inversement. Sur la figure 7 3, les items representes par les courbes A et B sont ties 
discriminatifs. Par contre, la courbe C est caracteristique d’un item dont la discrimi¬ 
nation est moins forte. 

Les premiers travaux a propos de la fonction qui relie un item au trail latent 
remontent au debut des annees 1950. Les contributions de Lord (1953a ; 1953b) out 
ete importantes. Mais les developpements theoriques et les applications des MR1 out 
ete particulierement stimules par la publication, en 1960, d’un article du mathemati- 
cien danois Georg Rasch : « Probalistic models for .some intelligence and attainment 
tests ». Rasch semble avoir ete le premier a avoir utilise une fonction logistique pour 
definir les relations entre les donnees dans le cadre de la construction d’un test psy- 
chologique (Wright & Stone, 1979). Le modele propose par Rasch est le plus simple 
des MRI. II s’appuie en effet sur le postulat que tous les items possedent un meme 
pouvoir discriminatif. Par consequent, le seul parametre des items a estimer concerne 
leur difficulte. 


Le modele a un parametre, souvent appele « modele de Rascli », est aujourd’hui 
le plus simple a utiliserdes MRI. Selon ce modele, la probabilite de reussir un item 
peut etre estimee par la formule suivante : 


P(6) = 


e «> *" 

1 + e'"-'"’ 


(7.1) 


P,.(9) = probabilite qu’un sujet quelconque, possedant une aptitude 9. reponde correc- 
tement a I’item i, 


bj - parametre de difficulte de I’item /, 

e = constante de Neper qui correspond au nombre irrationnel 2,718281... 

Le modele de Rasch est particulierement exigeant puisqu’il postule que tous 
les items d’un test possedent la meme discrimination. Cette exigence peut etre satis- 
faite lorsque les items sont ti es semblables comme, parexemple, clans les tests d’ac- 
quis scolaires localises sur un domaine precis. Mais, dans beaucoup d’autres cas, cette 
exigence n’est pas aisee a satisfuire. Pour cette raison, un modele qui prend egalement 
en compte la discrimination des items a rapidement ete propose. Le modele logistique 
a deux parametres (difficulte et discrimination) a ete developpe par Birnbaum (1968). 
Suivant ce modele, la probabilite de reussir un item peut etre estimee par la formule 
suivante, qui est une extension de 1’equation 7.1 : 


PfQ) = 


e 




1 + e 


- hi I 


(7.2) 


«, = parametre de discrimination de Litem /, proportionnel a la pente de la courbe au 
point bi, 

D = facteur d’echelonnement ( scaling factor) dont la valeur est une constante egale 
a 1,7. 
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La valeur de «, se situe habituellement entre 0 et 2. Lorsque cette valeur est 
negative, cela signifierait que la probability de reussir l’item diminue en fonction de 
1’augmentation du trait mesure. Une telle situation n’a guere de sens. Par consequent, 
un item qui presente un parametre de discrimination negatif est habituellement eli- 
mine ou, au minimum, revise. Par ailleurs, il est rare de rencontrer des items dont 
la valeur «, soil superieure a 2. Une telle valeur indique une pente particulierement 
raide. Du fait des inevitables erreurs de mesure, il est peu probable d’observer une 
discrimination plus marquee. 

La majorite des recherches sur les MRI ont ete realisees avec des items a choix 
multiple ou dont les reponses etaient du type « vrai/faux ». Lorsque 1’on utilise de 
telles modalites de reponse, le risque existe que des sujets ne possedant aucune habi- 
lete reussissent malgre tout un item en repondant au hasard. Dans ce cas, 1’asymp- 
tote la plus basse de la CC1 est nettement superieure a zero (figure 7.4). Pour faire 
face a une telle eventualite, il a ete propose d’inclure un troisieme parametre dans 
1’equation 7.2 : le parametre de « pseudo-chance ». Cette denomination peut etonner. 
En fait, coniine les valeurs de ce parametre sont habituellement inferieures a celles 
auxquelles correspondrait un choix totalement aleatoire, on considere qu’il n’est pas 
exact de l’appeler «parametre de chance » (Hambleton, Swaminathan & Rogers, 
1991, p. 17). L’equation suivante correspond au modele a trois parametres : 


P(Q)=c i 


+ d -c,) 


h,i 

1 + e a - M 


x. 


(7.3) 


Cj = parametre de pseudo-chance. 

L’avantage majeur des MRI que nous venous de presenter est de nous per- 
mettre de determiner les parametres caracteristiques d’un item (difficulte, discrimi¬ 
nation et pseudo-chance) independamment des caracteristiques des repondants qui 
ont permis de les estimer. Cette propriete d’invariance des parametres rend possible 
I’usage d’une banque d’items. En effet, le praticien desireux de constituer un test 
peut selectionner des items qui n’ont pas ete analyses avec les memes echantillons 



Trait latent 0 


Figure 7.4 — Le parametre de pseudo-chance (cj 
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de sujets. Une multitude de combinaisons d’items est des lors possible. Ceci est par- 
ticulierement interessant lorsque I'on veut retester des personnes en evitant I’efTet de 
repetition des rnenies items. Un autre avantage est de pouvoir comparer des repon- 
dants qui out passe des ensembles d’items differents conirne, par exemple, lors de 
testing adaptatifs (voir § 6.2.). En effet, les resultats obtenus sont independants des 
items particuliers qui ont ete utilises. 

L’invariance des parametres peut etonner les praticiens habitues a la relativite 
des analyses classiques. Une comparaison simple peut aider a comprendre cette pro¬ 
priety (Hambleton, Swaminathan & Rogers, 1991, p. 19). Dans le modele de regres¬ 
sion lineaire, la relation entre une variable X et une variable Y est representee par une 
droite de regression. Cette droite est decrite par une equation dont les parametres sont 
la pente et I’ordonnee a I’origine. Ces parametres sont estimes it partir d’un ensemble 
restreint de valeurs observees de X et de Y. Si le modele de regression lineaire est 
adequat, tout autre ensemble de valeurs observees de X et de Y devrait aboutir a la 
mise en evidence des memes parametres. II est logique que cette propriety d’inva- 
riance des parametres s’applique aussi aux MRI qui peuvent etre vus comme des 
modeles de regression non lineaire. 

Bien que les MRI apparaissent comme tres seduisants au premier abord, le 
praticien ne doit pas perdre de vue qu’ils reposent sur des postulats ties forts. Avant 
d’utiliser les MRI, il est par consequent indispensable de verifier si certaines exi¬ 
gences sont satisfaites au niveau des items et de la realite qu’ils mesurent. Les deux 
postulats sur lesquels s’appuient les MRI que nous venous de presenter sont : I’unidi- 
mensionnalite et I’independance locale. 

L 'exigence d’unidiniensionncdite signifie que tous les items d’un test doivent 
mesurer un seul et meme trait. Dans la pratique, ce critere n’est jamais parfaitement 
rencontre du fait des inevitables erreurs de mesure et de la complexity des traits mesu- 
res. Diverses methodes ont ete rnises au point pour evaluer 1’unidimensionnalite d’un 
ensemble d’items. Les plus courantes de ces methodes sont discutees dans la sec¬ 
tion 5 Lorsque I’unidimensionnalite d’un ensemble d’items ne peut etre demontree, 
les MRI ne peuvent etre utilises Des MRI multidimensionnels ont ete developpes 
pour surmonter cette contrainte d’unidimensionnalite, mais ils ne sont guere utilises 
(Reckase, 2009). Ces modeles sont en effet complexes et soulevent de nombreuses 
questions quant a leurs conditions d’application. 

L 'exigence d’independance locale signifie quant a elle que le trait qui fait 
I’objet de I’evaluation doit etre le seul facteur qui determine la variability des 
reponses aux items d’un test. Une fois que le trait mesure a ete pris en compte, 
aucune relation ne doit exister entre les reponses d’un sujet aux differents items. Si, 
par exemple, les consignes d’un test donnent des indices permettant de repondre plus 
facilement a certains items, I’exigence d’independance locale n’est plus respectee. 
Certains sujets peuvent en effet remarquer cet indice et d’autres pas. Par consequent, 
le score au test ne dependra pas settlement du trait que I on veut mesurer, mais ega- 
lement de la capacite a reperer certains indices utiles. L’exigence d'independance 
locale n’est pas non plus satisfaite si, par exemple, dans un test de mathematiques, 
certains items font appel a des connaissances en geographic. En effet, la reussite de 
ces items n’est pas determinee par le seul trait latent que nous souhaitons mesurer. 
Les sujets qui possedent de bonnes connaissances en geographic auront une proba¬ 
bility plus elevee que les autres sujets d’obtenir un score eleve aux items de mathe- 
matiques qui y font appel. 
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Lorsque l’exigence d’unidimensionnalite est satisfaite, I’exigence d’independance 
locale Test aussi. L’inverse n’est cependant pas vrai. Nous pouvons observer un espace 
latent multidiniensionnel et en nieine temps une independance locale des items du test. 
Cette situation se produit lorsqu’un second facteur influence tous les items de maniere 
egale. Par exemple, dans un test de mathematiques, les sujets peuvent avoir a lire de 
courts enonces. Si tous les sujets Iisent couramment, ce facteur ne les differenciera pas, II 
y aura alors independance locale : les sujets se distingueront selon leur seule competence 
en mathematiques. Pouilant, le test ne pourra etre considere coinme unidimensionnel 
puisque les performances seront sous-tendues par au moins deux facteurs. 

Par ailleurs, 1 ’utilisation des MRI implique certaines contraintes methodolo- 
giques. II est evident que Putilisation pratique de ces modeles est plus complexe que 
celle des techniques issues de la theorie classique des tests. Elle demande aux prati- 
ciens de serieuses competences theoriques et des outils inlormatiques puissants. Ceci 
limite certainement le champ d’application des MRI. Parmi les contraintes metho- 
dologiques, les deux plus importantes concernent l’estimation des parametres et la 
procedure de liaison. 

La premiere contrainte methodologique concerne l } estimation des parametres. 
La procedure d’estimation des parametres est souvent appelee « calibrage » des items. 
Cette procedure est relativement complexe et. bien que certains aient propose des pro¬ 
cedures manuelles de calcul (Wright & Stone, 1979, pp. 28-44), le recours a Lordina- 
teur est indispensable, d’autant plus que le nombre d’items et de sujets necessaires pour 
un calibrage precis des parametres est assez eleve (Hulin, Lissak & Drasgow, 1982). II 
existe aujourd’hui sur le marche de nombreux programmes permettant de calibrer les 
items pour les MRI a un, deux ou trois parametres. Parmi les plus courants, nous pouvons 
citer ACER CONQUEST 3.0.1 (Adams, Wu & Wilson, 2012), BILOG-MG3 (Zimowski, 
Muraki, Mislevy & Bock 2003), CONSTRUCTMAP (Wilson, 2005), RUMM2030 
(Andrich, Sheridan & Luo, 2012) et XCALIBRE-4 (Guyer & Thompson, 2011) 

Une etape delicate du processus de calibrage est la verification que les donnees 
observees sont bien ajustees aux exigences du modele. Deux exemples de representa¬ 
tion graphique de la relation entre les scores observes et les scores attendus sont don- 
nes dans la figure 7.5 II s’agit de deux items, appartenant it un ensemble plus large, 
analyses a l’aide du logiciel RUMM2030 (Andrich, Sheridan & Luo, 2012) qui permet 
d’estimer les parametres selon le modele de Rasch. Les deux courbes representent la 
relation attendue entre l’aptitude des rcpondants et leurs scores aux items en question. 
Les points noirs representent les resultats eflectivement observes (chaque point repre¬ 
sente un groupe de personnes de meme niveau d’aptitude). On peut constater que l’ajus- 
tement des donnees au modele est tres bon dans le cas de I’item 1. Par contre, dans le 
cas de Litem 2, des ecarts plus ou moins prononces sont observes entre les donnees et 
le modele. Pour evaluer Pimportance de ces ecarts, nous pouvons calculer les residus, 
c’est-a-dire les diff erences entre les scores observes et les scores attendus sur la base 
du modele. Les residus standardises sont ensuite calcules en divisant les residus par 
l’ecart type des scores attendus. Partant des residus standardises, il est alors possible 
de calculer un indice d’ajustement '/j. Une valeur de statistiquement significative 
est indicative d’un mauvais ajustement. Inversement, lorsque la valeur du est non 
significative, cela signifie que les donnees sont bien ajustees au modele et que Litem en 
question peut etre selectionne pour ligurer dans Lechelle de mesure. 

Remarquons id que la creation de banques d’items decoule en partie des contraintes 
d’estimation des parametres. Coniine le souligne Van Der Linden (1986, p. 330), «• Une 
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Figure 7.5 — Exemple de representation graphique de I'ajustement 

entre les resultats observes et les resultats attendus sur la base du modele 

banque cl’items sans MR1 est irrealisable. Metis il est ega lenient vrai cine le potentiel cies 
MRI pent settlement se realiser en combi liaison avec nne bctnqne d’i terns ». En effet, 
sou vent, la determination des parametres ne se fait pas en une fois, mais, au contraire, par 
approximations successives. A chaque utilisation d’un item, les resultats sont incorpores 
a I’ensemble des resultats anterieurs, ce qui pennet d’ameliorer le calibrage de cet item. 
II existe ainsi une relation reciproque et dynamique entre une banque d’items et les tests 
constants a partir d’elle. 

La seconde contrainte methodologique concerne let procedure de liaison (lin¬ 
king). Nous avons souligne plus haut que, dans le cadre des MRI, les parametres 
des items etaient invariants. Cela signilie que le positionnement des items les uns 
par rapport aux autres et la distance qui les separe du point de vue de leur difficulty 
ne depend pas de I’echantillon qui a servi a determiner ces informations. Toutefois, 
coniine nous I’avons deja souligne, I’echelle ainsi construite reste une echelle d’inter- 
valle, car elle ne possede done pas de zero absolu. Lors de la procedure d’estimation 
des parametres, le point zero de I’echelle de difficulty des items est arbitrairement 
centre sur la moyenne des estimations de 0 pour le groupe de repondants inclus dans 
I’analyse. La position du zero variant selon les groupes, les parametres obtenus sont 
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ipso facto relatifs a ce point zero. Ce probleme peut heureusement etre resolu assez 
aisement, car les parametres d’un item sont invariants d’un echantillon de repondants 
it I’autre, compte tenu d’une transformation lineaire qui permet de les placer tous sur 
une echelle commune. Pour ce faire, lors du calibrage des items, il est necessaire de 
determiner une constante qui permettra de transformer les parametres obtenus dans 
un echantillon donne et de les ajuster a l’echelle de reference. Cette procedure de 
liaison peut etre realisee selon plusieurs methodes (Vale, 1986) : placer des items 
communs dans les differents ensembles d’items ou utiliser des repondants communs 
lors des passations des divers groupes d’items, ou les deux a la fois 

3. L'esti motion des parametres 

L’estimation des parametres des items est une operation cruciale. En effet, c’est la 
qualite de cette estimation qui donne son sens a (’utilisation des MRI. Si I’estimation 
est mauvaise, les parametres seront instables d’un echantillon de repondants a I’autre. 
Par consequent I ’interet des MRI sera perdu puisque nous n’obtiendrons pas d’inva- 
riance des parametres. De nombreuses procedures d’estimation des parametres out 
ete proposees depuis les premiers travaux de Rasch. La plus utilisee aujourd’hui est 
certainement la met hod e da maximum de vraisemblance marginale (marginal maxi¬ 
mum likelihood). Elle est en effet utilisee par les programmes informatiques les plus 
courants comme BILOG-MG3 (Zimowski, Muraki, Mislevy & Bock, 2003) ou XCA- 
LIBRE-4 (Guyer & Thompson, 2011). 

Lorsque nous voulons estimer les parametres d’un ensemble d’items, les 
reponses des sujets sont les seules informations dont nous disposons. Nous sommes 
alors contraints d’estimer en meme temps le trait 0 des sujets et les parametres des 
items. La realisation de cette double estimation est loin d’etre evidente. Pour en 
comprendre la logique, il est necessaire de paiTir d’une situation plus simple ou les 
pai ametres sont connus et ou seul le trait 0 doit etre estime sur la base du patron de 
resultats de chaque repondant. La probabilite qu’un individu possedant une capacite 0 
obtienne une reponse U j (Uj = I si la reponse est correcte et 0 si elle est fausse) se 
note m|0). En veitu du postulat d’independance locale, la probabilite d’observer 
un patron de reponses a un ensemble de n items est egale au produit des probability 
de reussite et d’echec a chacun de ces items : 

p(u t ,u 2 .£/j0)=n^i 0 ) (7 - 4 ) 

Dans la mesure ou U ] peut avoir pour seules valeurs 1 ou 0, la formule 7.4 peut etre 
exprimee de la maniere suivante : 

P(U„ U v .... U„ J 0) — FI P"‘Q'f Ui (7.5) 

Pj = PiUj I 0) 

Qj = 1 - PWj I 0) 

Si nous pla^ons dans cette formule le patron de reponses effectivement observe, 
celle-ci ne peut plus etre interpretee de maniere probabiliste. Dans ce cas, f/ est egal 
a Uj qui correspond it la reponse observee a I’item j. La fonction que nous obtenons 
alors est appelee la fonction de vraisemblance : 

L(u r u 2 ,..„ 16)=n p' : Q'j v ‘ 


(7.6) 
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L’estimation du trait 0 d’un sujet consiste des lots a calculer la valeurde 0 qui 
maximise la fonction de vraisemblance 7 6. Pour trouver la valeur maximale de cette 
fonction, on utilise une procedure par approximations successives dont la plus cou- 
rante est celle de Newton-Raphson. Aucune valeur finie ne peut toutef'ois etre trouvee 
lorsque les reponses d’un sujet sont toutes correctes ou toutes erronees. Dans ce cas, 
l’estimation qui maximise la fonction de vraisemblance est 0 = +°° ou 0 = -<», 

Lorsque nous ne connaissons ni les valeurs de 0 ni les valeurs des parametres, 
la situation est encore plus complexe car nous devons considerer en nieme temps 
I’ensemble des n items du test et les patrons de reponses des N personnes qui out 
repondu a ces items. Dans ce cas, la fonction de vraisemblance s’ecrit : 

u r ..., a, I 0, a, b.c) = fl ft/feT (?•?) 

• = ! i = I 

Dans la formule 7.7, nous avons envisage le cas ou trois parametres doivent etre 
estimes (a, b et c). La meme formule peut, bien entendu, etre adaptee pour les cas ou 
seulement un ou deux parametres doivent etre estimes. 

Pour determiner les valeurs de 0 et les parametres des items qui maximisent 
la fonction de vraisemblance 7.7, deux methodes peuvent etre suivies : (1) 1’estima- 
tion du maximum de vraisemblance conjointe (ou conditionnelle); (2) l’estimation du 
maximum de vraisemblance marginale (ou inconditionnelle). 

La methode du maximum de vraisemblance conjointe presente certaines fai- 
blesses. La premiere est qu’il n’est pas possible d’estimer les parametres des items 
auxquels tous les sujets ont soil echoue, soit reussi. II en est de meme pour les valeurs 
de 0 lorsque les sujets n’obtiennent que des reponses correctes ou des reponses 
fausses Pour cette raison, les logiciels qui utilisent la procedure du maximum de 
vraisemblance conjointe eliminent d’emblee les sujets et les items dont les scores sont 
uniquement 1 ou uniquement 0. Une seconde faiblesse de la methode apparait avec 
les modeles a deux et trois parametres pour lesquels les estimations sont instables 
si Ton n’utilise pas un ties grand nombre de sujets et d’items. Pour cette derniere 
raison, la methode du maximum de vraisemblance conjointe n’est plus aujourd’hui 
utilisee que dans les logiciels qui realisent des analyses selon le modele de Rasch (par 
exemple, ConstructMap, Wilson, 2005). Dans les autres cas, on lui prefere la methode 
du maximum de vraisemblance marginale. Cette methode est beaucoup plus lourde en 
calculs que la precedente, mais permet d’obtenir des estimations plus stables pour les 
modeles a deux ou trois parametres. 

Quelle que soit la procedure utilisee, les caracteristiques de I’echantillon de 
sujets jouent un grand role dans la qualite de l’estimation des parametres des items. 
En particulier, « un echantillon homogene de sujets entrainera des estimations ins¬ 
tables des parametres du modele » (Hambleton, 1994b, p. 541). Dans le but de garan- 
tir cette heterogeneite et de reduire I’impact des erreurs de mesure, un echantillon de 
sujets suffisamment important est necessaire. Hulin et al. (1982) ont evalue la taille 
optimale de cet echantillon pour les modeles a deux et a trois parametres. Pour ce 
faire, ils ont genere des donnees simulees pour des echantillons de 200, 50 0, 1 000 
et 2 000 personnes a des tests de 15, 30 et 60 items. Ces donnees ont ete analysees 
avec le logiciel LOGIST. II apparait que, pour le modele a deux par ametres, un test de 
30 items et un echantillon de 500 sujets permettent d’obtenir des estimations de para¬ 
metres relativement stables. Avec le modele a trois parametres, le meme objectif peut 
etre atteint avec un test de 60 items et un echantillon de 1000 sujets. Dans le cas du 
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modele a un parametre, Wright & Stone (1979) recommandent d’utiliser un minimum 
de 20 items et un echantillon de 200 sujets pour obtenir des estimations satisfaisantes. 
Excepte dans ce dernier cas, nous pouvons nous rendre compte que I’estimation des 
parametres est une procedure relativement couteuse puisqu’elle impose une impor- 
tante recolte de donnees. Cette exigence constitue une reelle limite pour l’application 
des MRI les plus sophistiques. 

Dans la pratique, les donnees utilisees pour I’estimation des parametres ne 
s’ajustent jamais parfaitement au modele choisi. Nous avons vu plus haut que des 
tests statistiques, coniine le peuvent etre utilises pour evaluer le degre d’ajuste- 
ment au modele. Lorsque le defaut d’ajustement d’un item est statistiquement signifi- 
catif, cet item devrait etre ecarte. Toutefois, il y a lieu d’etre prudent avant de rejeter 
un item, car les tests d’ajustement sont tres sensibles a la taille des echantillons. 
Lorsque cet echantillon est petit, des problemes d’ajustement relativement impor- 
tants peuvent ne pas etre detectes. Par contre, lorsque I’echantillon est ties grand, des 
problemes d’ajustement mineurs risquent de conduire au re jet des items incnmines. 
Dans le tableau 7.1, nous reprenons, a title d’illustration, les resultats presentes a ce 
propos par Hambleton et Murray (1983). Les donnees ont ete analysees a l’aide du 
programme BICAL (Wright & Stone, 1979) Ce programme permet de realiser une 
analyse des items selon le modele de Rasch a 1’aide de la procedure du maximum de 
vraisemblance conjointe. II calcule egalement la valeur de t pour detecter les items 
mal ajustes au modele au seuil de .01 et .05 Comme nous pouvons nous en rendre 
compte a la lecture du tableau 7.1, le nombre d’items mal ajustes que detecte le pro¬ 
gramme BICAL varie sensiblement selon la taille de I’echantillon de sujets 

Le probleme que nous venous de souligner n’est pas specifique a un logiciel 
informatique ni a un test d’ajustement. II s’agit, au contraire, d’un probleme tout a 
fait general. Par consequent. Hambleton & Swaminathan (1985) suggerent de ne pas 
utiliser uniquement les tests d’ajustement pour juger de l’adequation entre le modele 
et les donnees. Us recommandent dc mcner une investigation plus large sur cette 
question. Les reponses a cette question doivent en efTet decouler de la convergence 
d’un ensemble d’indices. Trois categories d’indices devraient retenir I’attention des 
praticiens (pour une presentation plus detaillee, voir Hambleton & Swaminathan, 
1985, pp. 155-167 et Hambleton & al„ 1991, pp. 55-74) : 

1. Les rensei gnements concernant la validite des postulats du modele utilise pour 

analyser les donnees. Par exemple, les resultats des analyses concernant l’uni- 

dimensionnalite de 1’ensemble des items font partie de ces renseignements. 


Tableau 7.1 — Nombre d'items mal ajustes en fonction de la taille de I'echantillon 

(Hambleton & Murray, 1983) 


Taille de I'echantillon 

Nombre d'items mal ajustes sur un total de 50 

p < 0,05 

p < 0,01 

150 

20 

5 


25 

17 


30 

18 

1 200 

38 

28 

6 000 

42 

38 
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2. Les renseigneinents concernant les pmprietes attendues sur base du modele. 
Par exemple, on peut evaluer si la propriete cl’invariance des parametres est 
confirmee en comparant les parametres obtenus sur plusieurs echantillons de 
sujets appartenant a la rnerne population. 

3. Les renseigneinents concernant les predictions read sees sur la base du 
modele. Par exemple, nous pouvons comparer la difference entre les perfor¬ 
mances effectives d’un groupe de repondants a un item et celles qui out pu 
etre predites sur la base du niveau d’aptitude (la valeur de 0) de ces memes 
personnes. 

4. La fonction d'information de I'item et du test 


Les parametres d’un item peuvent nous renseigner a propos du degre d’information 
que nous procure cet item. L’information donnee par un item est maximale lorsque sa 
difficulte correspond au niveau d’aptitude du sujet evalue. Ainsi, un item de difficult^ 
moyenne sera le plus informatif a propos des sujets dont le niveau d’aptitude est 
proche de la moyenne. Parcontre, il ne nous apprendra pas grand-chose a propos des 
sujets faibles, ni des sujets brillants dont le niveau d’aptitude se situe en amont ou en 
aval de I’item en question. Par ailleurs, I’information sera d’autant plus importante 
que la discrimination de I’item est elevee. Inversement, un item qui discrimine peu 
fournira peu d’information permettant de diff erencier les sujets a un niveau d’aptitude 
donne. Enfin, plus le risque de reponse aleatoire est faible, plus I’item fournira de 
1’information. Lorsque nous avons affaire a des items dichotomiques, I’information 
que nous procure un item a propos d’un trait donne peut etre evaluee a l’aide de la 
formule suivante : 


I, ( 6 ) = 


\rW )} 2 

poiace) 


(7.8) 


/,(0) = fonction d’information d’un item i a propos du trait 0, 

P.(0) = fonction caracteristique de I’item selon les modeles a un parametre (equa¬ 
tion 7.1), deux parametres (equation 7.2) ou trois parametres (equation 7.3), 

P (0) = derivee premiere de P,(0), (2,(9) = I - P,(0). 

Connaissant les fonctions d’information des items, nous pouvons calculer l’in- 
formation que nous donne un test en fonction de 9. Du fait de l’independance locale 
des items, la fonction d’information d’un test est egale a la sonime des fonctions 
d’information des items qui composent ce test : 

/(0)=X / .- ( 0) (7,9) 

Cette formule est particulierement utile pour les constructeurs de tests. Comrne les 
items contribuent de maniere independante a l’information donnee par le test dans 
son ensemble, il est relativement aise de comparer differentes combinaisons d’items 
afin d’obtenir le test qui procure le maximum d’information clans la zone d’aptitude 
souhaitee. La figure 7.6 presente de maniere graphique les fonctions d’information 
de deux tests d’aptitude. Les deux fonctions out ete obtenues a l’aide du logiciel 
RASCAL 3.5 (Assessment Systems Corporation, 1992) qui permet de realiser une 
analyse d’items selon le modele de Rasch en utilisant la procedure du maximum de 
vraisemblance conjointe. Par consequent, 1’information que nous procure chaque test 
est relative aux seuls parametres de difliculte des items Le premier test (A) comprend 
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Figure 7.6 — Exemples de fonctions d'information de deux tests 

46 items. Nous pouvons constater qu’il nous pennet d’obtenir un niveau eleve d’in- 
formation sur toute l’etendue du trait mesure. Le second test (B) comprend 22 items. 
Par rapport au test A, I’information qu’i! nous procure depend nettement plus du 
niveau d’aptitude du sujet evalue. En fait, le test B comprend beaucoup d’items dif- 
ficiles et meme ties difficiles. Par contre, il manque d’items de difficult^ moyenne et 
inferieure it la moyenne. Remarquons ici que la fonction d’information d’un test ne 
doit pas a priori correspondre a un modele particulier. La qualite de la courbe d’infor¬ 
mation d’un test depend avant tout des besoins du praticien. Si son but est d’evaluer 
uniquement des performances ties elevees, un test informatif dans la seule zone supe- 
rieure du trait fera certainement l’affaire. Si, par contre, le praticien souhaite pouvoir 
evaluer des performances de tous niveaux, le test devra lui procurer suffisamment 
d’information sur toute l’etendue du trait. Par consequent, avant de selectionner les 
items d’un test, il est necessaire de determiner la courbe d’information souhaitee. 

A partir de la fonction d’information du test, nous pouvons calculer I’erreur 
type d’estimation du niveau du trait it l’aide de la formule suivante : 

SE(Q)=~jL= (7.10) 

yfm 

Connaissant l’information du test it un point donne de 0, nous pouvons ainsi determi¬ 
ner un intervalle de conliance autour de l’estimation du trait d’un individu se situant a 
ce point 0. Coinnie dans la theorie classique, plus cet intervalle de confiance est etroit, 
plus 1’estimation de 1’aptitude ou de tout autre trait peut etre consideree comme pre¬ 
cise. L’erreur type d’estimation depend du nombre d’items utilises pour estimer 1’ap¬ 
titude d’un sujet. Elle depend egalement de la capacite de discrimination des items et 
de I’adequation de leur niveau de difficult^ au niveau d’aptitude du sujet evalue. A la 
difference de ce que postule la theorie classique, cette erreur d’estimation peut varier 
selon le niveau du trait des sujets puisqu’elle depend de la fonction d’information des 
items correspondant aux differentes valeurs de 0 
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Tableau 7.2 — Analyse selon le modele de Rasch des items d'un lest 
de vocabulaire. Extrait des resultats (Gregoire et al., 1996) 


N° item 

Difficulte 

Erreur — type 

id 

lV 

- 2.803 

0.254 

17.489 

12 

- 0.884 


14.146 

13 

-1.659 

0.219 

23.396 

14 

-1.298 

0.210 

16.518 

15 

- 0.766 


16.634 

16 

-2.213 

0.234 

8.375 

17 

0.578 

0.185 

7 ; V 

18 

- 0.463 

0.195 

30.337* 

19 

0 276 

0.187 

15.350 

20 

0.511 

0.185 

12.073 

21 

1.413 

0.187 

20.133 

22 

1.906 

0.193 

12.535 

23 

0.578 

0.185 


24 

-0.390 

0.194 

21.537 

25 

0.678 

0.185 

39.142“ 

26 

-0.245 

0.192 

13.616 


Le tableau 7,2 illustre ce phenomene de variabilite de I’erreur d’estimation 
en fonction du niveau de 0. II presente un extrait des resultats de I’analyse des items 
d’un test de vocabulaire realisee avec le logiciel RASCAL 3.5. (Assessment System 
Corporation, 1992). Pour chaque item, ce tableau indique le niveau de difficulte, I’er- 
reur type de mesure et le resultat du test d’ajustement x 1 . Les valeurs de yd suivies 
d’un ou deux asterisques indiquent des items mal ajustes aux exigences du modele. 
A la lecture de la seconde colonne, nous pouvons observer que les items val ient en 
difficulte. Le niveau du trait 0 necessaire pour avoir 50 % de chance de les reussir 
s’etend en effet de -2,803 (item 11) a 1,906 (item 22). Dans la troisieme colonne, 
nous constatons que l’erreur type de mesure differe sensiblement d’un item a I’autre. 
La precision de I’estimation de I’habilete sera af’fectee par ces differences d’erreur 
type. L’evaluation des repondants de faible niveau sur le trait (0 inferieur a - I) sera 
mo ins precise que celle des sujets de niveau moyen (0 entre - 1 et + I). 


5. L'evaluation de la dimensionnalite 

Comine nous I’avons vu plus haut, le postulat d’unidimensionnalite joue un role cru¬ 
cial dans les MRI que nous venous de presenter Ces modeles ne s’appliquent en effet 
que s’il existe un seul trait latent qui sous-tend fensemble des items qui constituent 
le test. II est frequent que les utilisateurs de ces modeles croient que les tests d’ajus¬ 
tement produits par les logiciels d’analyse MRI permettent de controler de maniere 
efficace que le postulat cl’unidimensionnalite est satisfait. Un item qui ne s’ajuste 
pas au modele est des lors considere coniine mesurant d’autres dimensions que le 
trait latent vise par le test Cette croyance est malheureusement fausse. De multiples 
facteurs peuvent expliquer le defaut d’ajustement d’un item. Nous avons vu dans 
le tableau 7.1 que le nombre d’items mal ajustes est lie a la taille de I’echantillon. 
En fait, les statistiques d’ajustement sont tres sensibles it la taille. Inversement, ils 
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ne reperent pas necessairement des violations flagrantes du postulat d’unidimension¬ 
nalite. Ainsi Gustaffson et Lindblad (cites par Hattie, 1985) onl constate que cer¬ 
tains tests d’ajustement n’identifiaient pas I’inadequation de scores generes stir la 
base d’un modele orthogonal avec deux facteurs Parailleurs, les tests d’ajustement 
dependent de la pertinence du choix fait entre les differents MRI unidimensionnels 
(Hambleton, 1994b). Parexemple, si I on utilise un modele a un seul parametre alors 
que le modele a deux parametres aurait ete plus adequat, un certain nombre d’items 
ne seront pas ajustes a ce modele, me me si l’ensemble des items est unidimensionnel. 

Par consequent, les MRI ne permettent pas de tester la dimensionnalite d’un 
ensemble d’items. Au contraire, il est indispensable de prouver Tunidimensionnalite 
de cet ensemble si Ton souhaite realiser une analyse d’items sur la base d’un MRI. 
Mais quels sont les criteres valides d’unidimensionnalite ? Dans une importante revue 
de la litterature, Hattie (1985) a evalue 30 indices d’unidimensionnalite. A Tissue de 
cette evaluation, il conclut (p. 158) : « Nous n’civons pas encore connaissance d'in- 
dices satisfaisanls. Aitcttne des tentatives fades pour investiguer I’linidiinensionnalite 
n'a pennis de inettre en evidence un critere de decision claire. » Il est utile de s’ar- 
reter quelques instants sur quelques criteres classiques d’unidimensionnalite alin d’en 
preciser les limites : 

1 L’indice de reproductibilite de Guttman (voir chapitre 4, § 4.1) peut apparaitre 
comme un bon critere d’unidimensionnalite puisqu’il a ete conpu pour cette 
function. Pourtant, il est possible d’obtenir un excellent indice de reproductibi¬ 
lite sans que les donnees soient unidimensionnelles Si nous prenons 10 eleves 
de 6 a 16 ans et 10 questions correspondant chacune a un apprentissage spe- 
cilique a I’annee scolaire dans laquelle se trouve chaque eleve, nous pourrons 
obtenir un indice de reproductibilite parfait, rnerne si les items mesurent des 
variables tres diff erentes. 

2 Le coefficient alpha est egalement un indice d’unidimensionnalite insatisfai- 
sant hn eftet, alpha n’est pas une function monotone de Tunidimensionnalite. 
Cronbach lui-meme avaitdeja constate que la valeur d’alpha s’accroit en func¬ 
tion du nombre d’items du test. Or, d’un point de vue conceptuel, on ne peut 
pas concevoir que la dimensionnalite d’un test soit liee a sa longueur (voir 
Chapitre 3, section 3.4.2) 

3. Une autre technique possible est de realiser une analyse en composantes prin¬ 
cipals et d’evaluer la premiere composante extraite. Comme la premiere com- 
posante principale explique la plus grande part de variance d’un test, il est 
tentant de I’utiliser comme une mesure d’unidimensionnalite : plus le pour- 
centage de variance explique par la premiere composante est eleve, plus le 
test est proche de Tunidimensionnalite. Le probleme est que ce critere reste 
subjectif. Quel est le pourcentage suffisant pour parler d’unidimensionnalite ? 
Des valeurs ont ete proposees, mais aucune ne repose sur une argumentation 
solide. 

4. L’analyse factorielle est souvent consideree comme une technique de choix 
pour tester Tunidimensionnalite d’un test. Dans ce cas, Tanalyse est realisee 
a partir de la matrice de correlations (tetrachoriques) entre items et le nombre 
de dimensions est evalue sur la base des racines caracteristiques superieures 
a 1. Malheureusement, un serieux probleme apparait lorsque Tanalyse fac¬ 
torielle est utilisee avec des items dichotomiques. Les analyses factorielles 
classiques sont lineaires et. avec ce format d’item, elles ne parviennent pas a 
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evaluer correctement les saturations des items faciles et des items difficiles. 
Ces items peuvent alors apparaitre comine mesurant line dimension diff'e- 
rente de celle mesuree par les autres items. Par ailleurs, lorsque 1’analyse 
factorielle lineaire est realisee a partir d’une matrice de correlations 9 , elle 
a tendance a surestimer le nombre de dimensions sous-jacentes aux items 
(Hambleton & Rovinelli, 1986). 

Existe-t-il aujourd’hui d’autres methodes, plus satisfaisantes, pour evaluer la 
dimensionnalite d’un test? 

Une premiere methode adequate est I 'analyse factorielle non lineaire, laquelle 
peut etre realisee grace au logiciel NOHARM (Fraser & McDonald, 1988). Coniine 
son nom I’indique, cette methode ne postule pas de relation lineaire entre les variables 
elles-memes, ni entre les variables et les traits latents. Or la relation entre les items 
est souvent non lineaire, ce qui rend cette methode d’analyse factorielle tout a fait 
appropriee a Revaluation du nombre de dimensions sous-jacentes aux items d’un test. 
En fait, « il est raisonnable de considerer qit'un ensemble de n tests on de n items 
dichotomiques est unidimensionnel si et settlement s’ il s’ajnste a tin tnodele factoriel 
non lineaire avec tin seal factenr commttn. Dans le cas de tests, il est genera lenient 
correct de considerer qtte la regression de cliaqite score an test snr le factenr com- 
tnnn est lineaire. [...]. Dans le cas de donnees dichotomiques ce postal at n’est jamais 
correct, car la regression de I’item snr le factenr est [...] line probability condition- 
nelle dont les bornes sont zero et tin » (McDonald, 1981, pp. 104-105). Lorsque Ron 
realise une analyse factorielle non lineaire, le nombre de dimensions correspond au 
nombre de facteurs necessaires pour rendre compte des resultats observes. Les resul- 
tats d’etudes empiriques out inontre que cette methode rendait correctement compte 
du nombre de dimensions sous-jacentes a un ensemble de donnees (Hambleton & 
Rovinelli, 1986). 

Une autre approche de Revaluation de la dimensionnalite d’un test envisage 
le concept d’unidimensionnalite de maniere plus souple. II est en effet peu realiste 
d’esperer trouver des ensembles d’items qui ne soient determines que par un et un 
seul trait latent. Pour cette raison. Stout (1987, 1990) a propose de parler d 'ttnidi- 
mensionnalite essentielle lorsqu’un ensemble d’items est determine par une dimen¬ 
sion dominante a laquelle s’ajoute I’influence de plusieurs dimensions mineures. 
Sur la base du concept d’unidimensionnalite essentielle. Stout a developpe une 
procedure, appelee DIMTEST, qui permet d’evaluer I’unidimensionnalite d’un 
ensemble d’items dichotomiques. II part du principe que, pour determiner I’unidi¬ 
mensionnalite d’un groupe d’items, il est necessaire et suffisant d’identifier un trait 
tel qu’a chaque niveau de ce trait, les reponses aux items soient independantes. 
Stout considere que cette exigence est remplie si, pour les sujets qui possedent un 
meme niveau sur le trait latent, la covariation entre les items est egale a zero. La 
procedure DIMTEST consiste a verifier que ce critere d’independance locale est 
globalement satisfait lorsque Ron repartit les sujets evalues en sous-groupes de 
meme niveau sur le trait latent. II est possible de tester la signification statistique 
du resultat obtenu (indice T de Stout). Lorsque T est suffisamment petit, l’hypo- 
these d’independance locale et d’unidimensionnalite peut etre acceptee. Lorsque 
T est grand, cette hypothese est rejetee. Plusieurs etudes realisees sur des donnees 
reelles et simulees ont permis de verifier l’efficacite de la procedure DIMTEST 
pour evaluer l’unidimensionnalite d’un ensemble d’items (Nandakumar, 1993 ; 
Hattie, Krakowski, Rogers & Swaminathan, 1996). 
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Recemment, la procedure DIMTEST a ete etendue a revaluation de I’uni- 
dimensionnalite d’items polychotomiques. Cette procedure elargie, appelee Poly- 
DIMTEST, s’est revelee efficace dans revaluation de I’unidimensionnalite de donnees 
simulees (Nandakumar. Yu, Li & Stout, 1998) 

6. Applications des MRI 

6.1 Analyse du fonctionnement differentiel des items 

II est possible de comparer le fonctionnement d’un item dans deux sous-groupes de 
la population en tragant sur un meme graphique les CC1 de cet item pour chacun des 
sous-groupes en question. La ligure 7.7 presente les courbes caracteristiques d’un 
meme item pour deux sous-groupes de la population. Dans ce cas, le fonctionnement 
differentiel est uniforme, c’est-a-dire que les deux CC1 ne se croisent pas. Le groupe 
A est en effet avantage par cet item a tous les niveaux d’aptitude. En d’autres termes, 
a un meme niveau d’aplitude, un repondant appartenant au groupe A aura plus de 
chance de reussir cet item qu’un repondant du groupe B. Sur le graphique, nous avons 
indique la difference de probability de reussite selon le groupe d’appurtenance pour 
deux personnes se situant a la valeur 0,8 sur le trait latent. 

Dans la ligure 7.7, la difference entre les fonctions caracteristiques d’un meme 
item se situe au niveau du parametre de difficulty. Mais la difference peut aussi appa- 
raTtre au niveau des parametres de discrimination et de pseudo-chance. Ces deux cas 
peuvent donner lieu a un fonctionnement differentiel non uniforme, ce qui signilie 
que I’avantage ne beneficie pas au meme groupe a tous les niveaux du trait. Dans le 
cas d’un test d’aptitude, I’item peut ainsi etre plus facile pour un groupe aux niveaux 
d’aptitude les plus faibles, alors qu’il est plus facile pour I’autre groupe a des niveaux 
d’aptitude plus eleves. Par rapport aux autres methodes, les MRI sont particulierement 



Figure 7.7 — Courbe coracteristique d'un meme item pour deux sous-groupes 

de la population. 
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puissants pour reperer un fonctionnement differentiel non unif'orme, pour autant que 
nous utilisions un modele a deux ou a trois parametres. 

Les methodes de detection du fonctionnement differentiel des items basees 
sur les MRI peuvent se ranger en deux grandes categories : (1) celles qui utilisent les 
parametres et (2) celles qui utilisent le calcul de 1’aire. 

L'indice le plus simple pour comparer le fonctionnement differentiel d’un item 
est la difference entre les estimations du parametre de difficult^ ( b ) de deux groupes. 
Le signe de cette difference indique pour quel groupe fitem est le plus facile. II est 
egalement possible de comparer les parametres de discrimination (a) et de pseudo¬ 
chance (c). Toutefois, ces dernieres comparaisons ne sont pas recommandees, car 
1 ’estimation des parametres a et c est generalement moins stable que celle du para¬ 
metre b. Par consequent, ces comparaisons sont moins fideles. Elies sont d’ailleurs 
peu utilisees (Camilli & Shepard, 1994, p. 69). Un test de signification pour la diffe¬ 
rence entre les parametres b a ete propose par Lord (1980) : 



A b = difference entre les estimations de b dans les deux groupes, 

Sv, = + Si = erreur type de la difference, 

S A et S B sont respectivement I’erreur type d’estimation de b dans le groupe A et dans 
le groupe B 

Comme cl se distribue a peu pres normalement, la table de z peut etre utilisee 
pour tester I’hypothese H„ : Ab = 0. 

Un autre groupe de methodes de detection du fonctionnement differentiel uti¬ 
lise le calcul de I’aire entre les deux courbes. Rudner et al. (1980) out propose la 
formule suivante pour evaluer I’importance de cette aire : 

Aire= J(/>„(0) -P a (B))f/0 (7.12) 

II existe diverses variantes de cette formule permettant de prendre en compte le fonc¬ 
tionnement differentiel non uniforme et i’existence d’une difference de fidelite entre 
certaines portions des CCI. 

6.2 Le testing adaptatif (1) 

6 . 2.1 Differences entre testing traditionnel et testing adaptatif 

Le testing traditionnel se caracterise par la construction de tests a 1’intention de 
groupes particuliers de candidats. Ces tests sont administres avec un degre eleve de 
standardisation (Auger, 1989). On utilise les memes items ou un groupe equivalent 
d’items qui est le meme pour tous les candidats. Les items sont choisis en fonc- 
tion de I’habilete moyenne des groupes cibles. Leur ordre ne varie pas et le nombre 
d’items est toujours le meme. Les tests ainsi crees sont generalement de type papier 


"’Pour plus de renseignemcnls sur le testing adaptatif sur ordinateur, le lecteur pourra consulter la 
refe'rence suivante, dont plusieurs extraits de la conclusion ont etd utilisds dans cette section : Dechef, 
H. et Laveault, D. (1999). Le testing adaptatif sur ordinateur. Psychologic et psychometric, 20 (2/3), 
151-179. 
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crayon. On en fixe la duree a l’avance, en imposant une limite de temps raisonnable. 
Le testing traditionnel se traduit done par une selection des items et des procedures 
d’administration extremement rigides. A ce manque de souplesse s’ajoute une perte 
de precision dans I’estimation de l’habilete des personnes qui s’ecartent de I’habilete 
moyenne du groupe cible (Carlson 1993-1994 ; Auger, 1989 ; Weiss, 1985). Le tes¬ 
ting traditionnel est associe a la theorie classique des scores (TCS). 

Le testing adaptatif se distingue du testing traditionnel par une conception 
davantage axee sur l’individu. On cherche a estimer 1 ’habilete des candidats en evitant 
de leur presenter des items trop faciles ou trop difficiles. Pour ce faire, les items sont 
selectionnes au cours de la seance d’examen a partir de 1’habilete demontree par le 
candidat aux items precedents. Le testing adaptatif suppose done une banque d’items 
dont les parametres sont connus et une methode de selection des items au cours de la 
seance d’examen. II suppose aussi une procedure d’administration des items, un cri- 
tere de fin d’examen et une methode d’estimation de l’habilete du candidat pendant la 
seance d’examen. Le nombre d’items administres peut etre fixe ou variable. Dans le 
premier cas, chaque personae re^oit le meme nombre d’items. Dans le second cas, la 
seance d’examen se poursuit jusqu’a ce que l’habilete de chaque candidat soit estimee 
avec une precision satisfaisante. II en resulte une efficacite accrue dans l’estimation 
de I’habilete des sujets a tous les niveaux et une plus grande souplesse dans [’admi¬ 
nistration des items. 

Le principe du testing adaptatif remonte a l’origine des tests psychologies. 
En effet, des 1909, Binet proposait deja de n’administrer aux sujets que les items les 
plus proches de leur niveau d’aptitude. Parexemple, a un enfant de 9 ans, on proposait 
d’abord les items reussis en moyenne par lesenfants de cet age. S’il les reussissait, on 
passait a des items plus difficiles ; si au contraire il echouait a ces items, on presentait 
des items plus faciles. En procedant de la sorte, on evitait de presenter a l’enfant un 
grand nombre d’items trop faciles ou trop difficiles. On pouvait ainsi reduire le temps 
de passation tout en obtenant une mesure suffisamment precise. Toutefois, ce n’est 
qu’avec l’avenement des MRI et la disponibilite de micro-ordinateurs que le testing 
adaptatif a pu atteindre une flexibilite et une efficacite maximales (Laveault et Gre- 
goire, 1997 ; Hambleton, Swaminathan et Rogers, 1991). 

Le testing adaptatif est done un testing « sur mesure » (tailored testing) qui a 
pour principal avantage le gain de temps et le gain de precision. II evite ainsi que le 
repondant se demotive en ayant a repondre a un grand nombre d’items trop simples 
ou en ayant a subir une longue liste d’items auxquels il echoue systematiquement. 
Cette demotivation peut avoir un impact sur la qualite de la mesure recueillie. Le tes¬ 
ting adaptatif permet generalement d’accrottre l’efficacite relative du testing et d’ob- 
tenir une meilleure mesure au moindre cout. 

Toutefois, le testing adaptatif complexifie la procedure de passation. Jusqu’il y 
a peu, ce mode de testing n’etait possible qu’en situation devaluation individuelle. 11 
fallait en effet que le praticien realise le travail de selection des items tout au long de 
la passation. L’introduction du testing sur ordinateur a permis de sortir de ce carcan. 
L’infarmatique permet de realiser un testing sur mesure mieux ajuste aux niveaux 
d’habilete des personnes testees que ne le permettait la methode non automatisee. 
Chaque personae prend connaissance des items sur ecran el y repond generalement a 
l’aide du clavier ou de la souris. En fonction de la qualite de la reponse, l’ordinateur 
choisit un autre item, et ainsi de suite, jusqu’au moment ou la mesure atteint le degre 
de precision souhaite. 



Applications des MRI 


299 


6 . 2.2 Testing adaptatif et MRI 

Un testing adaptatif efficient n’est guere realisable dans le cadre de la theorie clas- 
sique des tests. En effet, nous avons deja souligne que les caracteristiques metriques 
des items sont alors relatives. Ce probleme est particulierement aigu dans le cas des 
tests adaptatifs car I’ordinateur doit disposer d’une vaste banque d’items ou il pent 
selectionner les items les plus adequats. Or, nous avons deja souligne plus haut que, 
du fait de leur nombre, tous les items d’une telle banque ne sont habituellement pas 
analyses avec les memes groupes de sujets. Par consequent, si nous utilisons la theo- 
rie classique, les items qui composeront la banque possederont des caracteristiques 
metriques relatives Comment des lors composer un test sur mesure avec de tels 
items ? Une seconde limite de la theorie classique pour le testing adaptatif vient du 
fait que le coefficient de fidelite et I’erreur type de mesure sont toujours calcules pour 
I’entierete du test. Si nous changeons la composition du test, I’erreur type de mesure 
est automatiquement modifiee. Or, le principe meme du testing adaptatif est d’evaluer 
les repondants a partir d’ensembles d’items constitues sur mesure. Comment, avec 
des ensembles d’items differents, determiner I’erreur d’estimation ? Cette information 
est essentielle pour le testing adaptatif car la procedure consiste a reduire progressive - 
ment I’erreur d’estimation jusqu’a un seuil determine a priori. 

Pour les deux raisons principales que nous venous d’examiner, il est necessaire de 
se tourner vers les MRI lorsque nous voulons realiser des tests adaptatifs. Ces modeles 


Tableau 7.3 — Exemple numerique d'une procedure de testing 
adaptatif (d'apres Urry, I 977) 


Presentation 

Numero des items 

Reponse 

Estimation 
de I'aptitude 

Erreur 

d'estimotian 

1 

43 

reussite 

0,47 

0,86 

2 

57 

reussite 

0,93 

0,75 

3 

55 

reussite 

U7 

0,64 

4 

12 

reussite 

1,44 

0,57 

5 

13 

reussite 

1,59 

0,53 

6 

54 

reussite 

1,77 

0,50 

7 

114 

reussite 

1,88 

0,47 

8 

26 

reussite 

1,98 

0,43 

9 

103 

echec 

1,80 

0,39 

10 

79 

reussite 

1,87 

0,38 

11 

78 

reussite 

195 

0,37 

12 

149 

echec 


0,34 

13 

15 

reussite 

1,85 

0,33 

14 

76 

reussite 

1,88 

0,32 

15 

74 

reussite 

1,94 

0,32 
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nous pennettent en effet d’obtenir des parametres d’items invariants. Ils nous permettent 
egalement de determiner un intervalle de confiance pour chaque estimation du trait 0 sur 
base de I’ensemble des items effectivement presentes. 

Dans les programmes de testing adaptatif, I’algorithme utilise prend en compte 
la foncdon d’information de chaque item (Thissen & Mislevy, 1990). Ainsi, a chaque 
fois que le sujet a repondu a un item, I’ordinateur estime a nouveau son habilete et 
recalcule 1’erreur type de cette estimation. Sur base de I’estimation obtenue et de sa 
marge d’erreur, I’ordinateur peut alors choisir I’item qui procurera le plus d’informa¬ 
tion au niveau 0 considere. Habituellement, la procedure commence par un item de 
difficult^ moyenne. A partir de la reussite ou de I’echec a ce premier item, un second 
item est choisi. Et ainsi de suite. Au cours de cette procedure, le niveau d’habilete 
du sujet est systematiquement recalcule ainsi que I’erreur d’estimation. Le testing 
s’arrete lorsque Ton atteint un niveau d’erreur specifie a I’avance ou lorsqu’il n’est 
plus possible d’accroTtre la precision avec les items restants de la banque d’items. Le 
tableau 7.3 illustre cette procedure. On peut constater qu’a partir d’un moment, les 
estimations du niveau d’habilete et de la marge d’erreur se stabilisent. II n’y a des lors 
plus lieu de continuer la procedure de testing. 

Les tests adaptatifs nous permettent d’obtenir une mesure ties precise avec un 
minimum d’items. Toutefois, il faut avoir conscience que pour realiser une telle evalua¬ 
tion, une importante banque d’items est necessaire. II n’est pas rare que cette banque 
comprenne plusieurs centaines d’items alors que chaque personne testee individuellement 
n’en voit qu’une quinzaine. Enfin, meme s’il y a de nombreux avantages a recourir a une 
procedure de testing adaptatif, il faut tenir compte de nombreuses contraintes et limites, 
liees taut aux modeles statistiques utilises qu’a la technologie informatique actuelle. 

6 . 2.3 Avantages et limites du testing adaptatif 

Le testing adaptatif sur ordinateur (TAO) constitue I’une des applications pratiques 
les plus interessantes des MRI. En fait, il est maintenant difficile de concevoir le TAO 
sans les MRI, meme si, comme nous l’avons mentionne, le testing adaptatif existait 
bien avant que les MRI n’apparaissent comme modeles de la mesure en psychologie 
et en education. Grace a I’invariance des parametres d’items et d’habilete et a la 
mesure locale de la precision, les MRI contribuent a solutionner plusieurs problemes 
inherents au TAO : 

1. elles permettent de construire une banque d’items dont les parametres sont 
connus et tous exprimes sur une echelle commune ; 

2. elles permettent d’estimer I’habilete au rnoyen d’une procedure de selection 
d’items qui dent compte de 1 ’habilete demontree par le repondant aux items 
precedents et qui est congue de maniere a reduire I’eireur de mesure. 

L’utilite du TAO se heurte encore a de nombreux obstacles. Certains de ces 

obstacles, il faut cependant le reconnaTtre, se retrouvent egalement en testing tra- 
ditionnel. D’autres sont plus specifiques au TAO. Ces obstacles se rassemblent en 
quatre categories : 

1. les limites associees aux questions a choix de reponse ; 

2 . les limites associees a la construction de la banque d’items ; 

3. les limites associees a la methode de selection des items ; 

4. les limites associees aux MRI. 
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A. LIMITES ASSOCIEES AUX QUESTIONS A CHOIX DE REPONSE 

Une pailie des Iimites du TAO provient des possibility restreintes du format des 
items a choix de reponses. Si 1 ’habilete mesuree se prete difficilement a ce format 
d’items, le TAO ne peut etre utilise. Par contre, il est possible que ces Iimites, impu- 
tables en partie a la procedure traditionnelle de testing, puissent etre repoussees au 
moyen du TAO. Les modeles polychotomiques permettent de mesurer plus eflicace- 
ment les habiletes des sujets en tenant compte de I’importance relative des erreurs 
associees au choix de mauvaises reponses Ces nouveaux modeles permettent d’envi- 
sager la conception de nouveaux tests ou une importance plus grande seraaccordee a 
la conception des leurres et au choix des questions. 

Une autre avenue interessante et relativement peu exploree de ces nouveaux 
modeles polychotomiques porte sur la creation de « testlets » (Wainer & Kiely, 1987) 
Un testlet est une grappe d’items portant sur la meme situation : p.ex. plusieurs 
items de comprehension de texte a choix de reponses, portant sur le meme extrait. 
Or, la reussite a ces items est liee puisqu’ils portent sur le meme texte. Wainer & 
Kiely (1987) out demontre que ce genre de test serait mieux traite au moyen d’une 
approche polychotomique des MRI, qui considere tous les items lies comme des cate¬ 
gories particulieres d’un seul « testlet », plutot que par une approche qui corrige indi- 
viduellement chaque item de fa^on dichotomique. La creation de « testlets » associee 
a des MRI polychotomiques est de nature a etendre 1’application d’items a choix de 
reponses a des etudes de cas ou a des questions portant sur la solution de problemes 
complexes. 

B. LIMITES ASSOCIEES A LA BANQUE D'lTEMS 

La precision avec laquelle le TAO parvient a estimer I’habilete des sujets depend 
de la disponibilite et de la qualite des items pour chaque niveau d’habilete dans la 
banque d’items. Pour assurer la comparability des parametres d’items, plusieurs devis 
peuvent etre employes, chacun comportant des contraintes particulieres et des Iimites 
propres. Au-delades considerations liees a la calibration, il demeure que si la banque 
ne comporte que peu d’items pour certains niveaux d’habilete, il ne sera pas possible 
de mesurer avec autant de precision les individus aces niveaux. Cette limite, il Taut 
l’admettre, n’est pas particuliere au TAO. Dans les memes conditions, un test tradi- 
tionnel de type papier crayon comporterait les memes Iimites. 

C. LIMITES ASSOCIEES A LA METHODE DE SELECTION DES ITEMS 

Dans le contexte du TAO, le choix du premier item presente et du critere de fin d’exa- 
men out une importance capitale pour l’eflicacite du test. De plus, lorsque la methode 
de selection des items se fonde uniquement sur un critere de maximum d’information, 
les items qui discriminent le mieux au niveau d’habilete estime risquent d’etre choisis 
frequemment. Lorsque le test a administrer doit assurer une certaine representativite 
du contenu, la methode de selection des items doit etre assortie de nouvelles condi¬ 
tions dont les effets peuvent reduire l’efiicacite du TAO pour ce qui est du nombre 
total d’items a administrer et de la duree totale du testing. 

Enfin, les methodes de selection des items possedent une autre limite impor- 
tante : celle de ne pas permettre aux examines de reviser leurs choix de reponses En 
changeant une reponse a un item, toute la procedure de selection de l’item le mieux 
apparie au niveau d’habilete du sujet se trouve faussee. Lunz, Bergstrom et Wright 
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(1992) ont voulu evaluer les effets de la revision des reponses sur l'estimation des 
habiletes des sujets en situation deTAO. Leurs resultats indiquent que la correlation 
entre habilete mesuree avant et apres revision est tres elevee (r = 0,98) et que la perte 
d’information imputable a la revision serait facilement compensee par l’administra- 
tion d’un item supplementaire. Ils notent aussi que le groupe qui a eu la possibilite de 
reviser ses reponses presente des performances legerement superieures a celles d’un 
groupe de reference equivalent. Les auteurs attribuent la legere augmentation de per¬ 
formance du groupe experimental it la perception de controle accrue sur la situation 
de testing. 

D. LIMITES ASSOCIEES AUX MRI 

Lorsque le TAO fait appel aux MRI pour calibrer les items ou encore pour choisir les 
items a administrer, les limites des MRI s’appliquent egalement au TAO. Les resul¬ 
tats achaque item doivent s’ajuster au modele choisi (un, deux ou trois parametres), 
Enfin, I’un des postulats les plus importants de plusieurs MRI est celui de l’unidimen- 
sionnalite. L’influence de la dimensionnalite sur l’estimation de I’habilete par le TAO 
a fait 1’objet de plusieurs etudes sur la robustesse des estimations obtenues par des 
modeles unidimensionnels a partir de donnees comportant deux dimensions ou plus. 

Reckase, Ackerman et Carlson (1988) ont conclu que le postulat d’unidi- 
mensionnalite de plusieurs MRI ne signifie pas que le test doive mesurer une seule 
habilete, mais plutot le meme ensemble d’habiletes interreliees. DeAyala (1992) a 
demontre que dans le cas de donnees bidimensionnelles, le TAO fournit des estima¬ 
tions d’habiletes qui ont tendance it se situer it la moyenne des habiletes sur chaque 
dimension. Ceci peut ne pas causer de problemes aux utilisateurs de TAO principa- 
lement interesses it ordonner les sujets quant a leur habilete a resoudre certains types 
de problemes qui necessitent les deux habiletes a la fois. 

6.3 Utilite du TAO 

L’utilite du TAO depend de la puissance des modeles theoriques a partir desquels il 
a ete con^u, mais egalement des considerations pratiques qui en decoulent. Le TAO 
combine les avantages et les inconvenients des MRI, du testing adaptatif et du testing 
sur ordinateur. II serait done inadequat de considerer que le TAO possede ces carac- 
teristiques en propre. Jusqu’a present, plusieurs des limites du TAO sont imputables a 
un arrimage imparfait ou incomplet entre ces trois composantes. II est it prevoir que 
meilleure sera leur articulation, plus le TAO pourra devenir flexible tout en conservant 
une grande efficacite. 

Theoriquement, le TAO permet generalement une plus grande efficacite dans 
la mesure des habiletes des repondants. Toutefois, cette efficacite est souvent acquise 
grace a une simplification de la procedure de testing qui se traduit par Pirn possibilite 
de reviser les reponses, la surutilisation des « meilleurs » items et par consequent, le 
risque de surechantillonner un contenu particulier. 

Les dernieres innovations en TAO demontrent comment celui-ci peut devenir 
plus flexible tout en conservant une grande efficacite par rapport au testing tradition- 
nel. En voici quelques exemples : 

• en developpant les modeles polychotomiques des MRI qui permettent une 

meilleure utilisation de 1’information partielle contenue dans les leurres ; 
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• en developpant les modeles multidimensionnels des MRI lorsqu’il est impor¬ 
tant de situer le repondant sur plusieurs habiletes differentes et independantes ; 

• en tenant cornpte de variables externes telles que le choix exprime par le 
repondant, ou encore, son degre de certitude en la reponse choisie. 

A leur tour, chacune de ces innovations possede un cout qui peut en restreindre 
l’utilite. Par exemple, 1’utilisation de modeles polychotomiques rend moins neces- 
saire le developpement de grandes banques d’items et reduit les inconvenients lies 
a la calibration de nombreux items sur des groupes de repondants differents. Par 
contre, 1’estimation des parametres d’items pour les modeles polychotomiques neces- 
site beaucoup plus de repondants que les modeles dichotomiques, a moins d'utiliser 
des modeles non parametriques (Ramsay, 1991 ; 1993). Selon qu’il est plus facile et 
moins couteux de construire des items que de les tester sur un nombre plus ou moins 
grand de personnes, le constructeur de test optera pour une solution ou Pautre. 

Dans de nombreuses circonstances, le choix d’une procedure de TAO se fait 
a partir de considerations pratiques, coniine dans le cas precedent. Une autre lirnite 
impoitante du TAO concerne la disponibilite de logiciels permettant la programmation 
aisee d’algorithmes de testing adaptatif. Le developpement de logiciels conviviaux est 
indispensable a la poursuite des innovations et a leur mise en application (Auger et 
Laveault, 1991. Enfin, le caractere relativement recent des MRI et de leurs possibilites 
d’application constitue sans doute le dernier frein a 1 ’utilisation repandue du TAO. 

II serait done utopique d’envisager le TAO coniine une solution de rechange 
adequate a toutes les situations de testing. Lorsque les couts de developpement d’une 
banque d’items et d’une strategic de TAO peuvent etre amortis par 1’utilisation repetee 
du test adaptatif sur un grand nombre de sujets, alors le TAO constitue certainement 
une alternative de choix. En effet, le cout de developpement d’un test adaptatif sur 
ordinateur s’ajoute aux couts de l’etude de validation. Bref, nous pourrions conclure 
par cette paraphrase : « Le TAO si necessaire, rnais pas necessairement le TAO ». 

7. Quel MRI choisir ? 

Quel modele choisir parmi les trois modeles de reponse a Litem que nous avons 
presentes ? Actuellement, le modele de Rasch semble etre le plus couramment utilise. 
Un des arguments qui joue le plus en faveur de ce modele est la taille relativement 
reduite de l’echantillon de sujets necessaire pour obtenir une estimation correcte du 
parametre de difficulty. Toutefois, nous ne devons pas perdre de vue que ce modele 
repose sur le postulat d’une egale discrimination de tous les items. Ce postulat peut 
conduire a ecarter un grand nombre d’items rnal ajustes au modele. Coniine le fait 
remarquer Hambleton (1994b), il est alors legitime de se demander si le modele lui- 
rneme ne doit pas etre remis en question. En eliminant des items dont le degre d’ade- 
quation au modele de Rasch est insuffisant, nous risquons en effet de nous priver de 
certains de nos items les plus valides. Dans ce cas, il est raisonnable de verifier si les 
modeles a deux ou a trois parametres ne conviennent pas mieux a nos donnees que 
le modele a un seul parametre. Le choix du modele doit nous permettre d’obtenir un 
meilleur ajustement de nos donnees et, par la meme, une estimation plus precise et 
plus stable des parametres des items. 

Les logiciels actuels, qu’ils soient bases sur un modele a un, deux ou trois 
parametres, out tous ete conqus pour realiser des analyses d’items dichotomiques. 
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c’est-a-dire d’items cotes 1 ou 0. Or, les praticiens ont souvent affaire a des items 
polychotomiques. Par exemple, de nombreux questionnaires demandent de repondre 
sur une echelle de 1 a 7. Un logiciel comme BILOG-MG3 ne permet pas de traiter 
de telles donnees. Par consequent, si nous desirons realiser une analyse selon un 
des MRI, nous sommes obliges de d’abord dichotomiser les resultats a chaque item. 
Ceci entraine une perte d’information et souleve des questions de validite parfois 
insurmontables. Par exemple, iorsqu’un item est cote 0, 1 ou 2, vaut-il mieux regrou¬ 
per les resultats 0 et I ou les resultats 1 et 2 ? Depuis les annees 1980, de nom¬ 
breux chercheurs ont elabore des modeles de MRI permettant de traiter des formats 
d’items autres que dichotomiques (voir van der Linden & Hambleton, 1997, pour une 
revue). Ces modeles ont stimule le developpement de logiciels qui permettent aux 
praticiens d’analyser des donnees polychotomiques de divers formats. Parmi ceux-ci, 
on peut citer XCALIBRE-4 (Guyer & Thompson, 2011). RUMM2030 (Andrich, She¬ 
ridan & Luo, 2012) et ConQuest 3 (Adams, Wu & Wilson, 2012). 

Un autre probleme des MRI actuels concerne le postulat d’unidimensionnalite. 
Nous avons deja souligne que, si les donnees ne satisfont pas a ce postulat, 1’utilisation 
d’un des MRI presentes plus haul n’est pas adequate. Or, en psychologie et en edu¬ 
cation, les performances a de nombreux tests sont determinees par plusieurs facteurs 
sous-jacents, independants ou correles. Dans ce cas, le postulat d’unidimensionnalite 
n’est pas defendable et l’analyse des items selon un des MRI unidimensionnels n’est 
pas possible. Le developpement de modeles multidimensionnels s’est fait lentement, 
sans doute du fait « qu’une grande pari des developpements mat he mat i que s durant 
ces cinquante dernieres annees s ‘est concentree trop exclusivement sur le cas parti- 
culier des modeles logistiques unidimensionnels » (Goldstein & Wood, 1989, p. 164). 
Une autre raison tient a la complexity de ces modeles et a la difficulty de les mettle 
en oeuvre sur le terrain. Peu de programmes statistiques sont operationnels et de nom- 
breuses questions restent en suspens quant aux conditions d’application des proce¬ 
dures d’analyse multidimensionnelle (Reckase, 2009 ; Reckase, 1997b). Par exemple, 
combien d'items sont necessaires pour permettre d’identifier une dimension ? Quelle 
relation y a-t-il entre la taille de I’echantillon, l’heterogeneite de la population de 
reference et le nombre de dimensions que l’on peut identifier ? D’evidence, les MRI 
multidimensionnels constituent un champ de recherche encore largement ouvert. 





Les methodes presentees dans le chapitre 2 out perniis de decrire un echantillon on 
encore toute une population a condition de pouvoir avoir acces a tous ses membres. 
Ce n’est pas toujours possible. En education et en psychologie, nous avons souvent 
pour objectif de connaTtre une population a partir d’un echantillon representatif de 
ses membres. C’est la le domaine des statistiques inferentielles qui feront I’objet de 
cette annexe 

1. Echantillon et population 

La mesure, qu’elle soil criteriee ou normative, repose generalement sur des estima¬ 
tions. En effet, on ne peut questionner un individu particulier sur tous les items d’ad- 
ditions. pas plus que I’on ne peut comparer la reussite de tous les individus pour 
lesquels un test d’addition a ete developpe. Nos conclusions s’appuient generalement 
sur les estimations que nous faisons au moyen : 

1. d’un echantillonnage d’items selon des criteres precis, dans le cas de la mesure 
criteriee ; 

2. d’un echantillonnage representatif de personnes, dans le cas de la mesure 
normative. 

Chaque type de mesure accorde done priorite a un type d’ echantillonnage : 
echantillonnage des items de I’univers de contenu, en mesure criteriee ; echan¬ 
tillonnage des personnes de la population d’interet, en mesure normative. Tradi- 
tionnellement, I’education s’est particulierement interessee au premier probleme 
d’echantillonnage. La psychometrie, pour sa part, s’est surtout attachee au deuxieme. 
Ceci se traduit par des procedures differentes de construction des tests. 

En education, ou plus precisement en edumetrie, la definition a priori de I’uni- 
vers de contenu a mesurer a pour effet que le principal travail de selection des items 
se fait avant le testing. En psychometrie, lorsque les resultats des tests sont employes 
pour differencier des individus entre eux, il est parfois ties difficile de savoir a 
I’avance quels items vont accrottre la discrimination entre les personnes. Ce n’est 
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qu’a posteriori qu’une selection des items pent veritablement avoir lieu, soit une fois 
que ceux-ci out ete administres a un premier echantillon representatif de la population 
d’interet. 

Dans la pratique, si nous souhaitons differencier des individus en fonction de 
leur intelligence, nous chercherons a utiliser des items qui nous permettent de discri- 
miner dans toute la population. 11 ne serait pas approprie de mettre a l’essai notre test 
sur un echantillon restreint de la population, comme, par exemple, les etudiant(e)s 
de niveau universitaire ou les eleves de classes speciales, a moins que notre but ne 
soit precisement d’etablir des differences parmi les individus de chacune de ces sous- 
populations. Si nous voulons discriminer dans 1’ensemble de la population, nous 
chercherons plutot a obtenir un echantillon representatif de toute la population. Pour 
ce faire, il existe plusieurs methodes d’echantillonnage plus ou moins bien adaptees 
a differents problemes d’estimation. Celles-ci seront decrites en detail dans le cha- 
pitre 6, section 2.2,2. 

Historiquement, la problematique de la diflerenciation des personnes pose le 
probleme de l’estimation d’une norme a laquelle sont compares tous les individus 
d’une meme population. Cette norme est generalement la moyenne de la population 
des individus. L’estimation de cette moyenne au moyen d’un echantillon representatif 
est done de premiere importance, car cette norme est la valeur par rapport a laquelle 
chaque personne sera comparee. 

Parce que les valeurs de I’echantillon et de la population correspondent 
a des realites differentes, les conventions en statistiques veulent que les para- 
metres d’une population soient exprimes au moyen d’une lettre grecque, alors 
que les parametres de 1’echantillon sont exprimes par la lettre coirespondante de 
I’alphabet romain. La moyenne de la population s’ecrit done p et la moyenne de 
I’echantillon s’ecrit m. L’ecart type de la population s’ecrit a, alors que celui de 
I’echantillon s’ecrit s. 

Lorsque nous decl ivous des valeurs estimees, les conventions veulent que nous 
utilisions une lettre grecque accompagnee d’un accent circonflexe. Par exemple, on 
ecrira a] pour signifier la variance de la population estimee a partir de la variance 
de 1’echantillon des valeurs de X. Toutefois, pour alleger la notation algebrique, nous 
decrirons de la meme fagon les valeurs de l’echantillon et les valeurs estimees a par¬ 
tir de l’echantillon, au moyen de caracteres romains. Ainsi, S’signifiera tout autant, 
variance de !’echantillon que variance de la population calcitlee a partir de I’echan¬ 
tillon. Le contexte sera habituellement suffisant pour distinguer ces deux situations 
lorsque ce sera necessaire. 

1.1 Inference et estimation 

L’inference fait partie des operations mentales a notre disposition pour saisir une 
infoiTnation non presente. Legendre (1993) definit l’inference comme un « mode de 
raisonnement qui consiste a tirer une consequence ou une conclusion logique d’un 
ensemble de donnees ». Ce mode de raisonnement est relativement frequent et plu¬ 
tot familier dans les situations de la vie courante, « mais dans les cas ou ceitains 
domaines du savoir s’eloignent des lieux communs et presentent un degre d’abs- 
traction eleve, ou si ces domaines ne sont pas suffisamment familiers au sujet, il 
lui devient particulierement difficile de faire les inferences demandees » (Legendre, 
1993, p. 714). C’est le cas notamment en statistiques. 
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Pour mieux saisir cette notion d’ inference, Faisons appel a une situation de la 
vie quotidienne. Supposons que vous vous promeniez dans votre quartier. Vous ne 
vous attendez pas a croiser sur votre chemin une personne mesurant plus de 2 metres. 
Si, avant votre depail, on vous demandait de faire une prediction a propos d’un tel 
evenement, vous parieriez probablement que vous ne rencontrerez pas une telle per¬ 
sonne, et vous auriez une grande confiance en votre prediction. 

Votre assurance repose sur une inference ties simple. Vous connaissez bien 
les gens qui habitent votre quartier et vos observations anterieures lors de vos nom- 
breuses promenades vous ont appris qu’il n’y a personne de cette taille dans votre 
environnement. Pour que vous croisiez une personne mesurant plus de 2 metres, cette 
personne devrait provenir de I’exterieur du quartier et se promener au meme moment 
que vous. Vous en concluez que la probability de rencontrcr une personne mesurant 
plus de 2 metres est tellement faible que vous preferez rejeter cette possibility a priori. 

En inference statistique, nous raisonnons de la meme maniere. Nous estimons 
les probabilites qu’un evenement se produise au liasard afin de prendre une decision. 
Si un evenement a ties peu de chances de se produire au liasard, alors nous prefe- 
rons accepter une autre hypothese, I’hypothese alternative , selon laquelle 1’evenement 
dont nous sommes temoins est imputable a autre chose que les simples fluctuations 
aleatoires. Toutefois, aucune des decisions que nous prenons dans le contexte de I’in- 
ference statistique n’est absolument certaine, puisque nous fondons node decision sur 
des probabilites. II y a done un risque d’erreur associe a chaque decision et les tests 
statistiques nous permettent de Festimer. 

1.2 Echantillonnage et estimation de la moyenne 
d'une population 

En estimation, nous ne sommes pas seulement interesses pai' les statistiques de 
1’echantillon. En effet, les sondages electoraux seraient bien peu interessants si ce 
qu’ils nous apprenaient se limitait aux intentions de vote des seules personnes son- 
dees. II en va de meme de nombreuses caracteristiques humaines qui sont mesurees 
en education et en psychologie. Bien souvent les caracteristiques de 1 ’echantillon ne 
nous interessent que dans la mesure ou elles sont representatives de la population 
entiere dont est tire 1’echantillon. 

Pour qu’un echantillon soit representatif de la population, les membres de 
la population doivent etre choisis au liasard avec une chance egale d’etre selection- 
lies. Nous nous limiterons id a la methode d’echantillonnage aleatoire simple. Cette 
metliode nous permet d’obtenir un echantillon representatif de la population. Ceci ne 
signifie pas que les caracteristiques de 1’echantillon soient exactement celles de la 
population. L’echantillon permet seulement d’estimer les caracteristiques de la popu¬ 
lation avec une marge d’erreur plus ou moins grande. Plus nous selectionnons une 
proportion importance de la population, plus nous pouvons avoir confiance dans cette 
estimation. 

Par exemple, pour determiner la qualite de I’eau d’un lac, il ne suffira pas de 
puiser I’eau a un seul endroit. II f'audra prendre des echantillons d’eau a differents 
points du lac et a des profondeurs differentes. Pour ne pas biaiser notre echantillon, 
nous choisirons ces endroits et ces profondeurs au hasard. Plus nous puisons I’eau 
a des endroits varies choisis au hasard, plus nous pouvons avoir confiance en notre 
estimation de la qualite de I’eau. II en va de meme lorsque nous teutons, par des 
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techniques d’echantillonnage, d'estimer les caracteristiques d’une population entiere. 
Par exemple, nous pouvons nous demander quel est le score moyen d’independance 
du champ (field independence) d’eleves de cinquieme annee. Au lieu d’interroger tous 
les eleves de cinquieme annee - ce qui pourrait s’averer irrealiste ou impossible pour 
toutes sortes de raisons pratiques et economiques - nous choisissons de ne retenir 
qu’un echantillon representatif de ceux-ci, tire au hasard de la population. 

Quelle serait la moyenne, la variance de la caracteristique « independance du 
champ » estimee sur base de notre echantillon ? Les lois de Pinference statistique 
nous apprennent que la meilleure estimation de la moyenne de la population est la 
moyenne de notre echantillon. Nous exprimerons ce premier principe par P equation 
suivante, ou X represente la moyenne de Pechantillon et p celle de la population : 

X = p _ (A.I) 

Toutefois, nous n’avons aucune certitude que la moyenne X de notre echantillon 
soit veritablement celle de la population. Si notre echantillon a ete tire au hasard, il 
est possible d’evaluer la probability que la moyenne de I’echantillon soit differente 
de celle de la population. Sur cette base, nous pouvons construire un intervcdle de 
confiance autour de la moyenne de Pechantillon a l’interieur duquel la moyenne de 
la population a une certaine probability de se trouver. Pour determiner cet intervalle 
de confiance, il nous faut connaTtre la variance des moyennes des echantillons tires 
au hasard au sein de la population. Or, le bon sens nous incite a croire que plus les 
echantillons tires de la population seront grands, plus petite sera 1’incertitude entou- 
rant l’estimation de la moyenne de la population. De fait, les lois de Pinference statis¬ 
tique nous indiquent que la variance des moyennes sj calculee a partir d’echantillons 
aleatoires de taille n, sera n fois plus petite que la variance s\ des n scores tires de 
1’echantillon. L’equation suivante represente ce deuxieme principe : 



n 


L’estimation de la variance des moyennes calculee a partir d’echantillons de taille 
n constitue ce que l’on appelle Yerreur d’estimation de lei moyenne Puisque les 
moyennes des echantillons se distribuent normalement, il nous est done possible de 
calculer un intervalle de confiance autour de la moyenne de Pechantillon a Pinterieur 
duquel existe une probability de 95 % de retrouver la moyenne de la population. 


Appliquons le calcul de Perreur d’estimation de la moyenne au probleme de 
Pestimation du quotient intellectuel moyen d’un groupe de 200 eleves tires au hasard. 
Nous savons que les quotients d’intelligence se distribuent dans la population avec 
une moyenne de 100 et un ecart type de 15 (e’est le cas des Q.I. calcifies au moyen 
de Pechelle Weschler). L’eneur type de la moyenne est obtenue au moyen du calcul 
suivant: 


2 

s~_ 

X 



= -*- = -=1,125 


5 ; 225 

n 200 
= yj 1,125 =1,061 


(A.3) 


L’erreur d’estimation nous permet de reconstruire la distribution des moyennes 
d’echantillons de 200 sujets tires d’une population de moyenne 100 et d’ecart type 15. 
Cette distribution des moyennes aura pour moyenne globale la rnerne valeur, 100, et 
pour ecart type l’erreur d’estimation 1,06. Lorsque la taille des echantillons est supe- 
rieure a 30, la distribution des moyennes suit la distribution normale des resultats et 
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il y a 95 % de chances que la moyenne d’un echantillon de 200 personnes se trouve 
dans un intervalle compris entre ± 1,96i f ce qui, dans l’exemple, est egal a (± 1,96 x 
1,06) = ± 2,08. 

En conclusion, un chercheur qui prelendrait tirer un echantillon representatif de 
la population du point de vue du quotient d'intelligence et qui obtiendrait a partir d’un 
groupe de 200 sujets selectionnes au hasard un quotient intellectuel inoyen de 105, 
pourrait difficilement pretendre que son echantillon a ete tire de la population decrite 
precedemment puisque la moyenne se situe en dehors de I'intervalle de confiance de 
95 % compfis entre 100± 2,08 (entre 97,92 et 102,08). Un groupe de 200 sujets dont 
la moyenne des QI serait de 105 a done moins de 5 chances sur 100 d’avoir ete tire 
au hasard dans une population dont la moyenne serait 100 et 1’ecart type serait 15. 
Cet evenement statistique est possible, mais il est ties rare. C’est pourquoi le cher¬ 
cheur preferera conclure que 1’echantillon n’est pas representatif de la population. En 
prenant cette decision, le chercheur risque de se tromper En effet, chaque fois que de 
tels echantillons, bien que rares, sont elfectivement tires au hasard, le chercheur se 
trompera. Toutefois, ce risque d’erreur est inferieur a 5 %. Nous veiTons dans la section 
suivante comment le risque d’erreur influence la piise de decision et la puissance des 
tests statistiques. 

1.3 Inference statistique et lois de probability 

La figure 1 ill us tie la difference entre erreur cl’ estimation et ecart type. Lorsque 
les moyennes des Q.l. sont calculees a partir de grands echantillons (dans ce cas-ci 
n = 100), 1’erreur d’estimation de la moyenne est beaucoup plus petite que 1’ecart 
type des scores bruts. Meme si un Q.l. de 105 est relativement frequent dans une 


Probabilites 



Figure 1 — Erreur d'estimation et ecart type des Q.l. pour n=100 
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distribution de scores bruts, un Q.I. moyen de 105, calcule sur une centaine de sujets 
tires au hasard, a une probabilite tres faible. 

Les calculs precedents valent pour des echantillons de grande taille (;i supe- 
rieur a 30). Dans de tels cas, la loi nonncile sert au calcul des probabilites des 
moyennes. Lorsque les echantillons comportent moins de 30 sujets, l’estimation de 
la variance de la population a plus de chances d’etre sous-estimee que surestimee. 
Les valeurs extremes de la population contribuant de fagon importante a la variance 
de la population risquent peu de se retrouver dans un petit echantillon. Pour de petits 
echantillons, la distribution des moyennes ne suit pas exactement la loi normale, mais 
une distribution platykurtique, la loi t de Student. L’intervalle de confiance a 95 % 
est alors superieur a ± l,96o f et correspond a ± t 005 O s . La valeur de t est obtenue en 
consultant les tables de probabilites du t de Student (voir Table 3, Annexe 2) pour le 
nombre de degres de liberte (nombre de sujets de l’echantillon moins 1). Nous expli- 
querons plus loin cette notion de degres de liberte. Notez linalement que la valeur de 
t 005 est toujours superieure a 1,96. 

Si nous refaisions les calculs pour les donnees de l’exemple sur l’erreur d’es- 
timation de la moyenne des QI et que nous les appliquions au cas d’un echantillon 
de 16 sujets tires de la meme population, l’erreur d’estimalion de la moyenne serait 
alors : 

, 4 256 

s. - — =-= 16 ,. 

K n 16 (A.4) 

s s = Vl6 = 4 

Comme prevu, I’erreur d’estimation de la moyenne est beaucoup plus grande a cause 
de la taille reduite de l’echantillon. De plus, du fait de l’incertitude plus grande entou- 
rant l’estimation de la variance de la population, l’intervalle de confiance sera supe¬ 
rieur a l’intervalle habituel de ± l,96j y pour de grands echantillons. Nous devons 
calculer un nouvcl intcrvalle a partir de la valeur de t ()05 > 1,96 pour un nombre de 
degres de liberte (dl) egal a 16 - 1 = 15 (voir Table 3, Annexe 2) Le nouvel intervalle 
calcule sera egal a ± 2,1315 X , soit ± 7,99. 

Comme on peut le constater, la marge d’incertitude s’est beaucoup accrue en 
utilisant un echantillon plus petit. Avec un echantillon de 100 sujets, nous reduisions 
considerablement la possibilite qu’une moyenne de 105 puisse provenir d’une popu¬ 
lation dont la moyenne est egale a 100. Avec un echantillon de 30 sujets maintenant, 
la meme valeur (105) se situe a I’interieur de I’intervalle de confiance a 95%, soit 
entre 92 et 108. Nous serious done conduits a accepter la possibilite qu’une moyenne 
de 105, lorsqu’elle est calculee a partir d’un echantillon de 16 sujets, puisse provenir 
d’une population dont la moyenne est 100. 

1.4 Inference statistique et prise de decision 

L’inference statistique va bien au-dela du calcul de I’erreur d’estimation de la 
moyenne de la population Nous pouvons tenter de determiner si les moyennes des 
populations d’ou soul tires nos deux echantillons peuvent etre considerees comme 
differentes. Pour resoudre ce probleme, il fautsavoir quelle est la probabilite d’obser- 
ver une certaine difference entre les moyennes de deux echantillons tires de la meme 
population. S’il est peu probable que les moyennes des deux echantillons aient ete 
tirees de la meme population, alors nous considerons qu’un facteur quelconque est 
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intervenu pour creer cet ecart entre les deux moyennes - en d’autres tenues, pour 
biaiser I’estimation de l’une des deux moyennes. 

Un exemple permettra de mieux comprendre la situation precedente. Suppo- 
sons qu’en vous promenant dans la rue vous faites la rencontre de deux personnes, 
l’une mesurant 1,9 m et 1’autre 1,7 m. Rien de surprenant la-dedans puisque 1,9 m et 
1,7 m sont des hauteurs probables dans la population. Supposons, toutefois, que vous 
rencontriez 20 personnes dont la hauteur moyenne est de 1,9 m, puis 20 autres dont 
la hauteur moyenne est de 1,7 m. Vous commencez a vous interroger. Si les valeurs 
individuelles de 1,7 m et 1,9 m ont des chances raisonnables de se produire dans la 
population, un ecart de 20 cm entre deux groupes de 20 personnes Test beaucoup 
moins. Vous serez porte a croire que les individus de chacun de ces groupes ne sont 
pas representatifs de la population en general et que cette difference de 20 cm, pour- 
tant normale entre deux individus, ne Test pas entre deux groupes. Ce serait d’autant 
plus vrai si ces deux groupes etaient formes d’un nombre encore plus grand d’indivi- 
dus tires au hasard. Dans ce cas-ci, vous pourriez avoir assiste a la sortie des joueurs 
d’une equipe de basket-ball, suivie quelques minutes plus tard par celle d’un groupe 
de karate. Ces groupes sont difl'erents et ne peuvent done etre consideres comme tires 
de la meme population. 

2. Comparaison de deux moyennes 

Deux techniques statistiques apparentees it la loi normale ou it la loi t de Student , 
selon la taille des echantillons en jeu, nous permettent de calculer la probabilite des 
differences entre deux moyennes. Elies permettent toutes de repondre it la ques¬ 
tion suivante : a partir de quel moment peut-on considerer deux moyennes comme 
significativement differentes I'une de I’autre ? Pour repondre a cette question, il faut 
connaitre la probabilite que de telles differences entre moyennes se produisent au 
hasard lorsque les deux moyennes proviennent de la meme population ou de deux 
populations dont la moyenne est identique. La loi de probabilite du t de Student 
- que nous venous d’etudier dans le cas de (’estimation de la moyenne pour de petits 
echantillons - permet le calcul des probability de ces differences entre moyennes. i! 
existe deux fa^ons de calculer la valeur de t pour la comparaison de deux moyennes : 

1 . la methode pour deux echantillons independants ; 

2 . la methode pour deux echantillons paires , dite aussi des echantillons lies. 

La premiere methode est la plus simple. Nous tirons au hasard deux echan¬ 
tillons, independamment Fun de Fautre, dont nous calculons les moyennes II s’agit 
alors de calculer I’ecart entre les deux moyennes. La seconde methode introduit un 
element supplementaire. Plutot que de comparer les deux groupes dans leur ensemble, 
il s’agit de comparer les individus des deux groupes par paires, en choisissant de cal¬ 
culer la difference entre les resultats obtenus entre les individus d’une meme paire, 
puis de calculer la moyenne de ces differences. Bref, la methode pour echantillons 
independants vise it determiner si la difference entre les moyennes de deux groupes 
est significative, alors que la methode pour echantillons paires vise a determiner si la 
moyenne des differences est significative. 

Pour que la methode pour echantillons paires ait un sens et qu’elle donne lieu 
it des resultats reellement differents de la methode pour echantillons independants, il 
faut que le pairage entre les sujets soit pertinent. C’est le cas lorsque, pour determiner 
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la valeur de deux methodes d’apprentissage, nous comparons les resultats d’individus 
de memes quotients d’intelligence. Nous savons que les capacites d'apprentissage 
sont fortement influencees par les aptitudes intellectuelles. En ne comparant que les 
resultats d’individus de memes aptitudes, nous eliminons la possibility que les diffe¬ 
rences observees entre les resultats soient imputables a cette variable La comparison 
que nous faisons alors entre les deux groupes est d’autant plus pertinente. Par contre, 
si nous avions choisi de pairer les individus selon leur taille, il est fort probable que 
la comparison n’aurait rien apporte puisque la taille n’a aucune inlluence sur I’ap- 
prentissage. 

Le pairage des sujets vaut egalement lors de mesures repetees. Le sujet est 
alors compare a lui-meme. Cette situation se rencontre lorsque nous souhaitons etu- 
dier le progres individuel en education. C’est le cas aussi des protocoles experimen- 
taux de type avant et apres traitement, que ce soit en psychologie ou en sciences de 
I’education, 

Le pairage des sujets permet d’effectuer de meilleures comparisons, en par- 
ticulier lorsque les echantillons sont petits. Plus les echantillons sont petits, plus il 
est possible de rencontrer accidentellement deux groupes dont les aptitudes intellec¬ 
tuelles sont differentes. Or, cette seule difference dans les aptitudes intellectuelles 
peut expliquer, totalement ou en partie, I’ecart dans les resultats d’apprentissage des 
deux groupes. Le pairage permet d’eliminer cette possibility, au prix cependant d’un 
travail plus complexe d’echantillonnage. Tout comme la methode pour echantillons 
independants, les sujets seront tires au hasard. Puis, des paires de sujets semblables 
- a I’interieur d’une certaine marge de tolerance - seront constituees. Par exemple, 
on considerera comme de meme niveau d’intelligence deux personnes dont le QI 
se situe entre 105 et 110. Le hasard interviendra a nouveau pour determiner a quel 
groupe sera assigne chaque membre de la paire. Le pairage des sujets peut donner 
lieu a des difficultes imprevues. Pour constituer des paires de sujets comparables, il 
peut etre necessaire de tirer plusieurs sujets. Mais cet effort en vaut la peine. Dans 
la mesure ou la variable de pairage exerce une influence reelle sur les donnees des 
deux groupes, la comparaison entre ceux-ci s’en trouve amelioree. En termes statis- 
tiques, nous dirons que la methode pour deux echantillons paires, lorsqu’elle s’avere 
pertinente, donne lieu a un test plus puissant des differences entre les deux groupes. 

Le tableau 1 presente un exemple employant les deux methodes. Dans le cas 
d’echantillons independants, il n’est pas possible d’identifier entre quels sujets les 
ecarts entre les deux groupes peuvent etre calcules. C’est pourquoi la moyenne des 
deux groupes est calculee sur I’ensemble des sujets el la difference est etablie entre 
les deux moyennes. Dans le cas d’echantillons paires, I’ecart est calcule pour chaque 
paire et c’est la moyenne des ecarts qui sert d’indicateur de la difference entre les 
deux groupes. Dans I’exemple du tableau 1, les memes donnees ont ete employees 
dans chaque groupe. 

Le tableau 1 presente egalement les valeurs de t pour chaque methode. La 
valeur t est une mesure de la difference entre les deux groupes qui tient compte de 
leurs moyennes et de leurs variances respectives. Moins les distributions des deux 
groupes se chevauchent, plus leurs moyennes sont separees l’une de I’autre, plus 
la valeur de / est elevee, quelle que soit la methode par laquelle elle est calculee. 
Lorsque la valeur de t est elevee, il y a peu de chances que les moyennes des deux 
groupes proviennent de la meme population. C’est ce qu’indiquent les probabilites 
associees a chacune des valeurs de t calculees dans le tableau 1. 
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Tableau 1 — Comparaison de deux moyennes 


echantillons independants 

echantillons paires 


groupe 1 

groupe 2 

paires 

groupe 1 

groupe2 

differences 


10 

14 

i 

10 

15 

-5 


12 

15 

2 

12 

14 

-2 


21 

19 

3 

13 

15 

-2 


17 

19 

4 

16 

17 

-1 


16 

18 

5 

16 

19 

-3 


16 

17 

6 

17 

18 

-1 


13 

15 

7 

18 

19 

-1 


18 


8 

21 

20 

1 

moyennes 

15,38 

17,13 

moyennes 

15,38 

17,13 

-1,75 

ecarts types 

3,54 

2,23 

ecarts types 

3,54 

2,23 

1,75 

erreurs 

d'estimation 

1,25 


erreurs 

d'estimation 




valeur de t 


0,95 

valeur de t 



2,29 

IB 



Ill 



7,00 

probability 


0,26 

probability 





La figure 2 presente les distributions normales des moyennes de chaque 
groupe en tenant compte de leurs erreurs d’estimation respectives. Comnie on peut le 
constater, il y a peu de chevauchement entre les deux distributions de moyennes. II y 
a done peu de chances qu’elles proviennent toutes deux de la meme population. Ce 
graphique il lustre egalement qu’il y a deux batons de reduire le chevauchement entre 
les deux distributions. La plus simple, sans aucun doute, est d’accroitre I’ecart entre 
les moyennes des deux groupes. La seconde, moins evidente, est de reduire I’erieur 
d’estimation, dont la variance est N fois plus petite que celle de 1’echantillon. En 
choisissant des echantillons plus grands, I’erreur d’estimation aurait ete plus petite et 
le chevauchement encore moindre. 

La valeur de t pour echantillons independants se calcule au moyen de I'equa¬ 
tion suivante : 



ou le numerateur indique la difference entre les moyennes des deux groupes (jV, - X 2 ) 
et ou represented les variances de chaque echantillon independant de taille n, 

et n 2 
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Probabilites 



Figure 2 — Distributions des moyennes de deux echantillons independants 
(donnees du tableau 1) 

La valeur de t pour echantillons paires se calcule differemment. Elle fait inter- 
venir une nouvelle valeur, D, qui est l’ecart entre les deux valeurs de chaque paire. 
Dans l’equation (a.6), D represente la moyenne des differences de chaque paire, s t 
l’ecart type des valeurs de differences et n represente le nombre de paires. 



Quelle que soit la maniere de calculer la difference entre deux echantillons, t est le 
resultat d’une transformation mathematique de la difference qui nous permet d’en 
estimer la probabilite. Pour connaitre cette probabilite, il faut aussi tenir compte de la 
valeur des degres de liberte (dl). Cette valeur dl indique le nombre de resultats libres 
de varier dans chaque situation. Elle se retrouve dans tous les tests d’inference statis- 
tique et est necessaire pour connaitre la probabilite d’un resultat statistique. Dans le 
cas de la methode pour deux echantillons independants, il y a sept valeurs libres de 
varier dans chaque echantillon une fois que la moyenne est fixee, puisqu’il y a huit 
sujets dans chaque echantillon. Le nombre de degres de libeite pour deux echantillons 
independants est fourni par T equation suivante : 

dl = (//, - 1) + (n, - 1) = n, + /?, - 2 = 8 + 8 - 2 = 14 (A.7) 

Lorsque la methode pour echantillons paires est employee, c’est le nombre n de paires 
qui est pris en consideration. La moyenne des differences etant fixee, le nombre de 
differences libres de varier est fourni par le nombre de paires moins 1, tel que calcule 
dans l’equation suivante : 

dl = N - 1 = 8 - 1 = 7 (A.8) 

Une fois calculees les valeurs de t et de dl, il est possible de connaitre la probabilite 
que les moyennes des deux groupes proviennent de la mime population en consultant 
la table de probabilites de Student (Table 3, Annexe 2). Ces deux valeurs, celles de t 
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et de dl, sont necessaires pour juger de la probability de telles differences. Plus I est 
eleve, plus l’ecart entre les echantillons est grand. Plus dl est eleve, plus la valeur de 
I peut etre consideree comme representative, puisqu’elle repose sur de grands echan¬ 
tillons. C’est pourquoi plus t et dl sont eleves, plus la probability que les moyennes de 
deux groupes proviennent de la meme population est I'aible. Enfin, notez que lorsque 
le nombre de degres de liberte est superieur a 100, la distribution des valeurs de t suit 
de ties pres celle de la loi normale et I’utilisation du Tableau 3 de I’Annexe 2 peut 
etre remplacee par l’utilisation du Tableau 4 sur la distribution des valeurs de z. 

2.1 Types d'erreur en inference statistique 

Prenons maintenant un exemple tire de la pratique psycliologique. Supposons que 
I’on vous demande de predire quels eleves inscrits a votre ecole, ages de 14 a 
18 ans, risquent de commettre une tentative de suicide au cours des trois pro- 
chaines annees. Vous consultez les statistiques nationales et vous apprenez que, 
chaque annee, 4 jeunes de cette population sur 10 000 attentent a leur vie. Sur cette 
base, vous pourriez predire qu’un jeune se suicidera ou ne se suicidera pas. Si, par 
exemple, vous rencontrez 2 500 eleves et que vous predisez a chacun qu’il ne se 
suicidera pas, votre prediction sera beaucoup plus souvent exacte qu’inexacte. En 
fait, vous avez 4 chances sur 10 000 de vous tromper, ce qui correspond a I chance 
sur 2 500. 

II y a dans cet exemple deux types d’erreur possible : (1) vous pouvez decla¬ 
rer qu’un eleve qui n’est pas suicidaire risquera d’attenter a sa vie ; (2) vous pouvez 
declarer qu’un eleve suicidaire n’attentera pas a sa vie. Dans ce cas-ci, comme dans 
bien des cas que nous rencontrons en statistiques, les deux types d’erreur n’ont pas la 
meme importance. L’erreur consistant a ne pas predire qu’un eleve suicidaire atten- 
tera a sa vie a de plus graves consequences que Terreur consistant a predire qu’un 
eleve qui n’est pas suicidaire attentera a sa vie. 

II y aurait peu d’interet a developper un outil de depistage de prevention du 
suicide chez la population des 14-18 ans, la probability d’un tel evenement etant 
deja tellement faible qu’il serait peu probable qu’un tel outil fasse mieux qu’une 
prediction « nulle ». c’est-a-dire predire que tous ces sujets ne se suicideront pas. 
Parcontre, si Ton pouvait demontrer qu’un jeune sur deux age de 14 a 18 ans, ayant 
decroche de l’ecole, s’etant retrouve sans emploi et ayant eu des antecedents d’al- 
coolisme ou de dependance narcotique risque d’effectuer une tentative de suicide, 
alors la mise au point d’un tel outil de depistage pourrait etre profitable, car, sur la 
seule base du hasard, nous aurions une chance sur deux (50 %) de faire une predic¬ 
tion exacte. 

Ce sont de tels elements de probability que les compagnies d’assurance utili- 
sent pour le calcul des primes d’assurance automobile. Par exemple, un conducteur 
celibataire, fumeur. de sexe masculin, de moins de 18 ans. conduisant une voiture 
sport, travaillant a plus de 15 km de son domicile et ayant des antecedents de mau- 
vaise conduite constitue un risque plus grand que la moyenne generale des conduc- 
teurs Ce risque est pris en compte dans le calcul des primes individuelles. Ceci ne 
veut pas dire que ce conducteur fera inevitablement un accident, mais qu’il fait partie 
d’un groupe ou le risque est plus grand que dans la population generale. 

Tout comme I’actuaire. le cherchcur scientifique doit soupeser les probabilites 
associees a differents risques d’erreur lorsqu’il se sert des statistiques pour prendre 
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une decision. Tout coniine nous Pavons vu dans Pexemple de la prediction du risque 
de suicide, il existe deux types d’erreur en inference statistique : 

• I’errenr de type 1 consiste a aflirmer, sur la base de probabilites extremenient 
faibles, qu’un evenement lie s’est pas produit au hasard, alors que de fait, un 
evenement extremenient rare, niais possible, vient de se produire. 

• I’erreur de ry'pe 11 consiste a affirmer, sur la base de probabilites obtenues, 
qu’un evenement a toutes les chances de s’etre produit au hasard, alors que 
de fait, cet evenement est le resultat d’un effet experimental non negligeable. 
Voyons maintenant comment ces deux types d’erreur s’appliquent a un cas 

concret tel que celui du test t de comparaison de deux moyennes. Apres avoir com¬ 
pare la moyenne de deux groupes de 25 eleves a un examen de inathematiques, un 
praticien calcule une valeur de t egale a 3,1 [dl - 48), ce qui d’apres les tables de 
probabilites de la loi t de Student, se produit moins d’une fois sur 100. Deux inter¬ 
pretations s’offrent alors au praticien : 

I. affirmer que les deux groupes ne sont pas differents quant a leur rendement 
en inathematiques et que 1’ecart observe resulte d’un effet du hasard qui se 
produit moins d’une fois sur 100 ; 

2 affirmer que les deux groupes sont differents quant a leur rendement en mathe- 
matiques et que Pecart observe resulte d’un effet autre que le hasard. 

En ce qui concerne la premiere hypothese, appelee hypothese nulle (H 0 ), 
il sera ties difficile de contredire les personnes qui feront valoir qu’il est ties 
peu probable que les groupes soient semblables. Considerant qu’un ecart tel que 
celui observe ne se produit au hasard qu’une fois sur 100 entre deux groupes de 
moyennes identiques, il faudrait avoir ete bien malchanceux pour tomber preci- 
sement sur cette possibility. 11 est preferable de considerer qu’il existe une reelle 
difference entre les deux groupes et d’admettre 1’autre hypothese, que nous appe- 
lons hypothese alternative (//,) . 

11 se peut cependant que 1’hypothese nulle soit, malgre tout, correcte. C’est le 
cas chaque fois qu’un tel ecart se produit effectivement au hasard, soit une fois sur 
100 : c’est le deuxieme type d’erreur. A premiere vue, cette alternative est peu defen- 
dable. Mais si le praticien vous informait que sur les quelque 80 tests de mathema- 
tiques administres aux deux groupes depuis le debut de 1’annee, c’est la premiere fois 
qii’un tel ecart se manifeste, 1’acceptation de I’hypothese nulle pourrait etre defen- 
dable. 

2.2 Prise de decision statistique et niveau de signification 

La prise de decision statistique fait intervenir plusieurs facteurs. II existe toujours un 
certain degre d’incertitude qui depend de ce que nous considerons comme un risque 
acceptable ou non. En effet, quel pourcentage des differences s’etant produites au 
hasard entre deux groupes sommes-nous prets a considerer comme extreme au point 
de nous faire preferer 1’hypothese alternative pour expliquer les resultats ? 

Dans la pratique, certains chercheurs optemnt pour des pourcentages, appeles 
niveau.v de signification , de I’ordre de 5 % et moins. Ce pourra etre 5 %, 1 % ou 
meme 0,1 % (respectivement 0,05, 0,01 et 0,001). Le choix d’un niveau de significa¬ 
tion depend directement du risque d’erreur de type I que nous sommes prets a tole- 
rer : c’est-a-dire, la probabilite de rejeter I’hypothese de non-difference (hypothese 
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nulle) alors qu’elle est vraie. Ce degre de tolerance nous est en partie dicte par des 
considerations scientiliques et pratiques. 

Quels facteurs entrent en jeu dans le choix d’un niveau de signification plutot 
qu’un autre ? Un chercheur qui en est a la phase exploratoire d’un programme de 
recherche ne voudra pas commetlre 1’erreur qui consiste a declarer non significative 
une difference meme petite. II cherchera a reduire l’erreur de type II et pour cela, il 
choisira un niveau de signification plus grand, tel que 0,05. Parce qu’il ne veut pas fer- 
mer la porte a des differences qui, meme pelites, presentent un potentiel de recherche, 
il acceptera done comme significatifs un plus grand nombre d’evenements statistiques, 
parmi les moins frequents, que s’il avait choisi un niveau de signification tel que 0,01 
ou 0,001. Parcontre, avant de declarer qu’il existe des differences entre individus de 
races differentes, il voudra s’assurer qu’il n’est pas tombe par hasard sur une diffe¬ 
rence inhabituellement grande. Dans de telles circonstances, elant donne 1’importance 
et les repercussions qu’auront ses conclusions, le chercheur choisira de reduire l’erreur 
de type I en choisissant des niveaux de signification tels que 0,01 ou mieux encore 
0 ,001. Il y a en effet un risque important a declarer que deux races sont differentes 
quant a une certaine caracteristique, alors qu’un ecart tel que celui observe pourrait se 
produire au hasard 5 fois sur 100 entre deux groupes pour lesquels il n’existe aucune 
difference. Plus les consequences de rejeter I’hypothese nulle sont graves, plus le cher¬ 
cheur voudra se premunir d’une erreur en adoptant un niveau de signification severe 
(0,01 ou 0,001). Par contre, si e’est l’acceptation de l’hypothese nulle qui constitue le 
plus grand risque, tel que de declarer qu’une variable est sans effet alors qu’elle l’est 
reellement, alors le chercheur optera pour des niveaux tels que 0,05 et meme 0,10 

2.3 Puissance statistique appliquee a la comparaison 

DE DEUX MOYENNES 

Plusieurs facteurs affectent la validite de la prise de decision statistique. Dans le cas 
de la comparaison de deux moyennes tirees de la meme population, l’un de ces fac¬ 
teurs a trait a la taille des echantillons. Plus les echantillons sont grands, plus nous 
nous attendons a ce que Jes moyennes soient similaires et plus nous serons portes 
a declarer significatifs de faibles ecarts. Un autre facteur a trait au risque que nous 
sommes prets a prendre. Puisque nos decisions se fondent sur la probabilite que se 
produisent les differences observees, nous serons plus facilement enclins a declarer 
des ecar ts significatifs lorsque nous acceptons une erreur de type I plus elevee. Enfin, 
le dernier facteur a trait a la methode de calcul de la difference entre les moyennes. 

Le tableau 2 resume les notions d’inference statistique decrites dans la section 
precedente. On y retrouve les types I et II d’erreur ainsi qu’un nouveau concept, celui 
de la puissance statistique. En effet, meme si certains risques sont associes a la prise 
de decision statistique et qu’aucune certitude n’existe a ce sujet, la probabilite d’en 
arriver a la bonne decision varie selon les situations. C’est ainsi que la probabilite de 
prendre la bonne decision est parfois tellement faible qu’il est inutile d’entreprendre 
la recherche. Cette probabilite de prendre la bonne decision est ce que nous appelons 
la puissance statistique. 

La puissance statistique est intimement liee au risque d’erreur. Le tableau 2 
indique que le type I d’erreur se produit lorsque Ton rejette l’hypothese nulle a 
partir des donnees de notre echantillon alors que l’hypothese nulle est vraie dans 
la population. La probabilite de commettre I’erreur de type I est egale au niveau 
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Tableau 2 — Puissance et risques d'erreur associes a la decision statistique 



Situation dans la population 

Hypothese nulle vraie 

Hypothese nulle fausse 

Decision 

statistique 

Rejeter I'hypothese nulle 

Type 1 d'erreur 
p = a 

Decision correcle 
p = 1 — p = puissance 

Ne pas rejeter I'hypothese nulle 

Decision correct 
p = 1 -a 

Type IID'erreur 

P = P 


de signification choisi au depart, soit a. Quant a I’erreur de type II, elle consiste a 
prendre la decision de ne pas rejeter I’hypothese nulle, alors qu’elle est fausse dans 
la population. La probability de I’erreur de type II nous est donnee par (i. La com- 
plementaire de 1’erreur de type II, 1 — (3, nous donne la probability de rejeter I’hypo¬ 
these nulle lorsqu’elle est fausse, ce qui constitue la puissance statistique d’un test. 
C’est pourquoi nous retrouvons toujours les valeurs de p dans les tables statistiques 
associees au calcul de la puissance d’un test. 

Malheureusement, il est impossible, sans changer les conditions experimen- 
tales, de minimiser a la fois les risques d’erreur de type 1 et de type II. Si 1’on dimi- 
nue la probability d’une erreur de type I, 1’on accroTt la probability de commettre une 
erreur de type II. Comment f’aire pour reduire simultanement les deux types d’erreur 
et, par consequent, accroitre la puissance de notre decision statistique ? Nous savons 
que plus I’echantillon est grand, meilleures seront les estimations des parametres de 
la population. Par consequent, nous pouvons paivenir a un meilleur test d’hypothese 
en augmentant la taille des echantillons. 

Une autre fa?on d’accroitre la puissance d’un test consiste a utiliser la tech¬ 
nique statistique qui represente le meilleur modele de la situation que nous voulons 
tester. Certains tests statistiques sont mieux adaptes pour mettre a l epreuve certaines 
hypotheses. C’est ce que nous avons vu avec I’exemple presente dans le tableau I. 
Dans cet exemple, nous avons teste I’hypothese nulle qu’il n’existe aucune difference 
entre deux moyennes en utilisant deux tests statistiques differents : le test t pour 
echantillons independants et le test t pour echantillons paires. Alors que I’ecart entre 
les moyennes demeure le rneine dans chacun des cas, la valeur de t et la probability 
qui lui est associee val ient. Dans le cas du test t pour deux echantillons independants, 
la probability associee a la valeur de I (0.26) est bien superieure au niveau de signifi¬ 
cation que nous exigeons habituellement pour rejeter I’hypothese nulle. Cette proba¬ 
bility indique qu’une valeur de t comme celle que nous avons obtenue a 26 chances 
sur 100 de se produire au hasard, ce qui ne constitue pas un evenement suflisamment 
rare pour que nous rejetions I’hypothese nulle et acceptions I’hypothese alternative. 
Par contre, dans le cas du test t pour deux echantillons paires, la probability associee 
a la valeur de t (0.03) est telle que nous sommes conduits a rejeter I’hypothese nulle 
et a accepter I'hypothese alternative, puisque la probability qu’une telle valeur de t 
sc produise n’est que de 3 sur 100. Comme nous ctions prets a declarer significatifs 
des evenements statistiques qui se produisent 5 fois sur 100 et moins, nous rejetons 
d’autant plus aisement I’hypothese nulle en faveur de I’hypothese alternative. 

Comment expliquer de tels ecarts entre les resultats de ces deux tests sta¬ 
tistiques, alors que les moyennes des deux groupes sont les memes ? La reponse 
reside dans la fa?on dont la procedure statistique traite les resultats. Dans le cas du 
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test I pour echantillons independants, il n’est pas possible de comparer chaque sujet 
a un sujet bien precis de 1’autre groupe puisqu’il n’existe aucune raison valable 
d’associer un sujet d’un groupe avec un sujet de 1’autre groupe. La comparaison 
est done globale et le test t porte sur l’ecart des moyennes des deux groupes. 
Dans le cas du test t pour echantillons paires, il existe un tel rationnel. La com¬ 
paraison est done specifique et le test / porte sur la moyenne des ecarts observes 
entre chaque paire. Plus le pairage est efficace, plus la variable externe associee 
au pairage est importante dans l’explication des differences entre les resultats des 
deux sujets, plus le test t pour echantillons paires est puissant par rapport au test 
t pour deux echantillons independants, car il prend en compte la correlation entre 
les donnees pairees. 

L’observation des donnees pour deux echantillons paires indique que, meme 
si les donnees sont les memes que pour deux echantillons independants, elles ont 
ete reorganises par paires. Le pairage demontre egalement que I’individu le plus 
faible du groupe 1 est generalement le plus faible dans le groupe 2, et que le plus 
fort dans le groupe 1 est le plus fort dans le groupe 2. Les deux echantillons sont 
lies et le pairage a done reussi (nous pourrions dire egalement que les echantillons 
sont coneles). Bien que la moyenne des differences et la difference des moyennes 
soient identiques pour chaque methode (ecart =- 1,5), la valeur de t passe de 0,95 
(ell = 16) a 2,29 (clI = 7) dans le cas de deux echantillons paires. La probability 
que ces deux echantillons proviennent de la meme population passe de 0,26 a une 
valeur beaucoup plus faible, soit 0,03. 11 y a done un lien entre les deux groupes 
qui s’explique par l’effet du pairage. Cet effet du pairage fait que le test r pour 
echantillons paires est un modele plus adequat pour traiter les donnees. Un cher- 
cheur qui aurait traite les donnees de ces deux echantillons paires au moyen d’un 
test pour deux echantillons independants n’aurait pas rejete l’hypothese nulle alors 
qu’elle est fausse. 11 aurait ainsi commis une erreur de type II a cause d’un test 
statistique moins puissant. 

Que se produirait-il si le pairage n’avait aucun effet ? Si nous avions paire 
les sujets en fonction de leur taille, le test t pour echantillons paires n’aurait pas ete 
plus puissant. En l’absence d’une variable adequate de pairage, e’est le modele pour 
echantillons independants qui convient le mieux. 


3. Comparaison de plus de deux moyennes 

Lorsque nous devons comparer plus de deux moyennes, le probleme de la compa¬ 
raison se pose differemment. Il est frequent de vouloir determiner si k echantillons 
sont tires de la meme population ou si au moins l’un d’entre eux peut etre consi- 
dere comme provenant d’une population differente. La tentation est forte d’utiliser 
le test t que nous venons de decrire en multipliant les comparaisons. Dans le cas 
d’un test impliquant cinq groupes, le nombre possible de tests t serait egal au 
nombre de combinaisons de deux dans cinq, soit 10 comparaisons deux a deux, 
comme suit : 


C' v = 
W 


N\ 


k)(N —k)\ 


= C? = 


5! 


21(5-2)1 


5x4x3! 

2!3! 


= 10 


(A.9) 


En plus d’etre peu pratique, une telle fa 9 on de proceder accrott considerablement les 
chances de declarer significatives des differences occasionnees par les fluctuations 
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d’echantillonnage, puisque nous effectuons 10 comparaisons de moyennes, chacune 
avec un risque d’erreur de type 1 egale au niveau de signification par comparison. 
Mises ensemble, ces erreurs de type I depassent ce qui est normalemenl accepte en 
inference statistique pour prendre la decision d’accepter ou de rejeter l’hypothese 
nulle. 

3.1 Comparaisons multiples et taux d'erreur 

Les comparaisons multiples entraTnent deux taux d’erreur : 

1 . le taux d’erreur par experience ( experimentwi.se error rate) ; 

2 . le taux d’erreur de Fensemble ( familywise error rate). 

Le premier se produit lorsque nous effectuons plusieurs comparaisons a partir 
de donnees recueillies sur les memes echantillons Chacune de ces comparaisons ne 
peut etre consideree comme independante des autres puisque les memes echantillons 
sont employes a chaque fois. C’est le cas lorsque nous comparons les moyennes des 
gargons et des filles pour chacune des 50 questions comprises dans un questionnaire. 
Pour 1’ensemble de ces comparaisons, le taux par experience est beaucoup plus eleve 
que le taux choisi par comparaison Si le risque d’erreur par comparaison a ete fixe 
a 0,05, le taux pour I’ensemble de cette experience sera c fois plus grand, tel que 
calcule dans Fequation suivante : 

a = cot' = 50 x 0,05 = 2,5 (A. 10) 

Un tel taux d’erreur indique que panni les 50 comparaisons, la probability est tres 
forte que deux ou trois tests statistiques donneront lieu a une erreur de type I. Par 
consequent, le chercheur declarera significatives des differences produites par les 
fluctuations d’echantillonnage. 

Parfois, nous sommes interesses non pas a realiser toutes les comparaisons 
possibles, mais une famille de comparaisons independantes entre elles. C’est le cas, 
lorsqu’en comparant les moyennes de cinq groupes, nous choisissons celles qui out 
un interet particulier pour notre etude. Si le groupe 5 est le groupe controle et que 
les quatre autres groupes constituent autant de groupes experimentaux, i 1 se peut que 
quatre comparaisons nous interessent vraiment : celles entre les quatre groupes expe¬ 
rimentaux et le groupe controle. Ces quatre comparaisons sont independantes et le 
taux d’erreur pour I’ensemble des compar aisons se calcule differemment du taux par 
experience. II est donne par I’equation suivante : 

a = 1 - (I -a') c = 1 -(1 - 0,05) 4 = 0,1855 (A. 11) 

Le taux calcule (0,1 855) pour l’ensemble des quatre comparaisons est bien superieur 
au risque d’erreur de type I pour chacune des comparaisons (a' = 0,05). Le caractere 
cumulatif du risque d’erxeur doit done etre pris en consideration lorsque nous multi- 
plions les tests de comparaison. 

3.2 Analyse de variance et calcul du rapport F 

Pour eviter d’accroitre 1’erreur de type I au moyen de comparaisons multiples, nous 
avons besoin d’un test d’hypothese qui nous permette d’effectuer, en une seule fois, la 
comparaison de plusieurs moyennes. L’analyse de variance (ANOVA) permet un test 
simple de l’hypothese selon laquelle k echantillons out ete tires d’une meme popu- 
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lation oil de populations equivalences. Coniine son noin I’indique, cette technique 
statistique met a profit i'analyse des differences formes d’estimation de la variance 
aiin de pouvoir confirmer ou infirmer cette hypothese. 

Le tableau 3 presente la simulation du tirage de cinq echantillons de 25 sujets 
tires au hasard de la meme population en ce qui concerne les quotients d'intelligence 
(moyenne = 100 : ecart type = 15) Si les cinq echantillons out ete tires de la meme 
population, les differences entre les moyennes des cinq groupes devraient s'expliquer 
uniquement par les fluctuations d’echantillonnage. Mais, comment en etre sur ? 
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Tableau 4 — Statistiques descriptives et ANOVA des resultats du tableau 3 


Groupe 

Frequence 

Somme 

Moyenne 

Variance 

Ecort type 

Groupe 1 

25 

2 419,87 

96,79 

270,78 


Groupe 2 

25 

2 548,71 

101,95 

267,00 


Groupe 3 

25 

2 511,50 

100,46 

308,99 

17,58 

Groupe 4 

25 

2 648,33 

105,93 

154,15 

12,42 

Groupe 5 

25 

2 575,45 

103,02 

314,13 

17,72 

Moyenne 



101,63 

263,01 

16,22 

Voriance des moyennes 



11,32 




ANOVA 


Source 

SC 

dl 

MC 

F 

Prob.de F 

Valeur 
crit. F 

Variance inter 

1 132,38 

4 

283,10 

1,08 

0,37 

2,45 


31561,34 

120 

263,01 




Totol 

32 693,72 

124 






En inspectant les statistiques descriptives des resultats des cinq groupes au 
tableau 4, il est difficile de se prononcer sur l’existence d’une difference quelconque 
entre les moyennes. Le groupe 1 est celui dont la moyenne est la plus basse (96,79) 
et le groupe 4, celui dont la moyenne est la plus elevee (105,93). A I’exception de 
ces deux valeurs extremes, les moyennes des autres groupes gravitent autour de la 
valeur de la moyenne de la population. Pour nous prononcer sur l’existence d’une 
difference entre une ou plusieurs des moyennes, il faudrait determiner si les ecarts 
observes entre les moyennes des cinq groupes sont le resultat de fluctuations nor- 
males d’echantillonnage. Bref, il nous faudrait connaitre la probabilite de tirer au 
hasard cinq moyennes telles que celles que nous avons tirees. 

Nous disposons deja d’un moyen simple de determiner le degre de variation 
possible entre les moyennes tirees d’une meme population. Dans la section 1.2, por- 
tant sur l’estimation de la moyenne d’une population, nous avons vu que la variance 
des moyennes etait n fois plus petite que celle des resultats, n representant la taille 
de l’echantillon. En effet, plus les moyennes de chaque groupe sont calculees a partir 
d’echantillons de grande taille, plus petite devrait etre leur variation. Est-ce bien le 
cas dans l’exemple du tableau 4 ? 

Pour calculer la variance de moyennes, nous procedons de la meme maniere 
que pour la variance des resultats. Voici un exemple de calcul a partir des donnees 
du tableau 4 : 

, X~m) : (96,79 - 101.63) 2 +... + (103,02 -101,63)’- , , , A 

V,. = 1, 1 - j- 1 - = ---= I 1,32 (A. 12) 

ou M represente la moyenne des moyennes de chaque groupe et k = nombre de 
moyennes (ou de groupes). 
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La variance des moyennes est bien inferieure a n’importe quelle variance des 
resultats observee pour chacun des cinq groupes. En effet, la variance des resultats 
s’etend de 154,15 pour le groupe 4 jusqu’a 308,99 pour le groupe 3 Selon ce que 
nous savons des lois d’estiination de la moyenne, la variance des moyennes devrait 
etre 25 fois plus petite que la variance des resultats. Or, dans le cas du groupe 4, elle 
est 15 fois plus petite, alors que dans le cas du groupe 3, elle est environ 30 fois plus 
petite. Quelle devrait etre notre decision ? 

Nous serions sans doute mieux renseignes si, au lieu de comparer la variance 
des moyennes a la variance des resultats de chaque groupe, nous utilisions les resul¬ 
tats de tous les groupes pour calculer la variance des resultats. C’est ce que nous 
avons f ait en calculant la moyenne des variances pour les cinq groupes, ce qui nous a 
donne 263,01. II est normal que les variances des resultats de chaque groupe, meme 
lorsque ces groupes sont tires de la meme population, ne soient pas identiques. La 
moyenne des variances nous fournit done une meilleure estimation de la variance des 
resultats dans la population que ne pourrait le faire un seul groupe a la fois. 

Nous pouvons done comparer deux estimations de la variance des resultats de la 
population. L’une est calculee a partir de la variance des moyennes que nous savons etre 
n fois plus petite que la vaiiance des resultats. L’autre est calculee a partir de la moyenne 
de la vaiiance des resultats, que nous savons etre la meilleure estimation possible de la 
variance des resultats dans la population. Or, si les cinq groupes en presence ont ete tires 
de la meme population (ou de populations aux caracteristiques identiques), il ne devrait 
pas y avoir de differences remarquables entre ces deux estimations. 

Dans 1’exemple du tableau 4, on peut estimer la variance des resultats de la 
population a partir de la variance des moyennes en utilisant la formule (a.3) Dans ce 
cas-ci, nous chercherons a resoudre cette equation non pas pour sf , mais pour j,.. En 
substituant par leurs valeurs respectives nous obtenons : 


si =nsl = 25 x 1 1,324 = 283,10 


(A. 13) 


La variance des moyennes etant 25 fois plus petite que celle des resultats, nous pou¬ 
vons estimer que la variance des resultats devrait etre 283,10. Nous appelons variance 
inter-croupes ou variance inter, la variance des resultats de la population estimee de 
cette maniere. Nous appelons variance intra-groitpes ou variance intra , la variance 
des resultats estimee en calculant la moyenne des variances de chacun des groupes. 
Nous savons que celle-ci vaut 263,01, tel qu’indique dans le tableau 4. Cette valeur 
est simplement la moyenne des variances des cinq groupes : 


270,78 + 267,00 + 308,99 + 154,15 + 314,13 
5 


263,01 


(A.14) 


La comparaison de ces deux valeurs confirme que la variance des moyennes n’est 
pas inhabituelle. En effet, si nous faisons le rapport - appele F d’apres le nom de 
1’initiateur de cette methode, le statisticien Fisher - entre les deux valeurs estimees de 
la variance des resultats de la population, la variance inter el la variance intra , nous 
obtenons une valeur voisine de 1 : 


Variance inter 
Variance intra 


283,10 

263,01 


1,08 


(A. 15) 


Un rapport F = 1 indique que les deux estimations sont egales. Si le rapport Fcalcule 
entre les deux estimations de la variance des resultats dans la population n’est pas 
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ti es different de 1, alors nous avons de bonnes raisons de croire que les ecarts entre 
les moyennes sont purenient aleatoires et que tous les groupes en presence peuvent 
etre consideres comme ayant ete tires de la ineme population. Pour en etre vraiment 
convaincu, il faudrait connaitre de fa$on precise la probability d’obtenir la valeur 
observee de F ou une valeur plus extreme, lorsque I’liypotliese imlle est vraie. Nous 
aborderons cette question lorsque nous parlerons de la loi des probability de F. 

Voyons maintenant ce qui se passerait si certains des groupes tires au hasard 
ne provenaient pas de la ineme population. C’est ce que nous avons tente de simuler 
dans le tableau 5. Pour realiser cette simulation, nous avons soustrait 3 de tous les 
resultats du groupe I et nous avons additionne 5 a tous les resultats du groupe 4. Ces 
valeurs correspondent a un effet experimental qui pourrait se produire si, dans le cas 
des resultats de Ql, nous avions tire notre echantillon de populations differentes : par 
exemple, une population d’etudiants ayant (ermine leur scolarite obligatoire (+5) et 
une population d’etudiants ne l’ayant pas terminee (- 3). 

Comme l’illustre la simulation 3 de la figure 3, I’addition de ces effets experi- 
mentaux a eu pour resultat d’eloigner les groupes 1 et 4 des autres groupes situes plus 
pres de la moyenne generale de la population. Mais cet ecart est-il suffisant pour etre 
declare significatif ? Pour repondre a cette question, il faut calculer la probability que 
de telles differences se produisent au hasard. 

En ajoutant deux effets experimentaux aux groupes 1 et 4, nous avons change la 
variance entre les moyennes des cinq groupes. Celle-ci est maintenant de 37,63 (au lieu 
de 11,32), ce qui traduit bien les consequences des effets experimentaux. Par contre, la 
variance des resultats pour chacun des groupes n’a pas change. 11 en est de meme lorsque 
nous calculous la moyenne des variances des cinq groupes : celle-ci demeure inchangee 
par rapport a la situation initiale oil nous n’avions ajoute aucun effet experimental. 


Tableau 5 — Simulation #2. Effets experimentaux : Groupe 1 = (- 3) ; 

Groupe 4 = (+ 5) 


Groupes 

Frequence 

Somme 

Moyenne 

Variance 

(Groupe 1 )-3 

25 

2 344,87 

93,79 

270,78 

Groupe 2 

25 

2 548,71 

101,95 

267,00 

Groupe 3 

25 

2511,50 

100,46 

308,99 

(Groupe 41+5 

25 

2 773,33 

110,93 

154,15 

Groupe5 

25 

2 575,45 

103,02 

314,13 

Moyenne 



102,03 

263,01 

Variance des moyennes 



37,63 



ANOVA 


Source 

SC 

dl 

MC 

F 

Prob. de F 

Valeur 
crit F 

Inter groupes 

3 763,40 

4 

940,85 

3,58 

0,01 

2,45 

Intra groupes 

31 561,34 
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Probabilites 


Probabilites 


Probabilites 



Moyennes 



Moyennes 



Moyennes 


Figure 3. — Representation grapbique de trois simulations d'ANOVA (distributions 
des moyennes de chaque groupe et erreurs d'estimation] 
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L’addition d’effets experimentaux aux resultats de deux des cinq groupes n'a 
pas les merries consequences sur (’estimation de la variance de la population, que 
celle-ci s’effectue a partir de la variance des moyennes (variance inter) ou a paitii' de 
la moyenne des variances des resultats de chaque groupe (variance intra). La variance 
intra, calculee a partir de la moyenne des variances a l’interieur de chaque groupe, 
n’est pas affectee par les effets experimentaux. Elle constitue done une estimation non 
biaisee de la variance de la population. Par contre, la variance des moyennes est affec- 
tee par ces effets experimentaux et est done une estimation biaisee de la variance de la 
population. En effet, si Ton cherche a estimer la variance des resultats de la population 
a paitir de la variance entre les moyennes dans l’exemple du tableau 5, nous trouvons : 

5 ; = ns\ = 25 x 37,63 = 940,85 (A.16) 

Cette valeur est plus de trois fois superieure a celle de la variance des resultats de la 
population calculee a partir de la moyenne des variances de chaque groupe, tel que le 
demontre le calcul du rapport F : 

f= Variance inter = 94 085 = 3 5g (A . 17) 

Variance intra 263,01 

L’ajout d’effets experimentaux a provoque une hausse importante du rapport F, f'ai- 
sant passer celui-ci d’une valeur voisine de 1, lorsque les seules variations sont dues 
aux effets d’echantillonnage, a une valeur de 3,58 lorsque nous avons ajoute des 
effets experimentaux a deux des cinq groupes. F est done un bon indicateur du degre 
de difference entre les moyennes. II nous permet de determiner si les fluctuations que 
nous observons entre les moyennes des groupes sont probables pour des echantillons 
tires d’une population ou il n’y a pas de differences (H 0 vraie). La probability asso- 
ciee a cet indicateur peut nous servir a prendre une decision quant a l’existence ou 
non d’une difference significative. 

La decision prise a partir du rapport F peut etre entachee d’erreur. Nous devons 
considerer le caractere particulier de la simulation precedente. La valeur de l’effet 
experimental + 5 a ete ajoutee au groupe 4, dont la moyenne etait deja la plus elevee, 
et la valeur dc 1 ’effet experimental - 3 a ete ajoutee au groupe I, dont la moyenne 
etait deja la plus basse. Ceci a eu pour consequence d’accroitre les ecarts entre les 
moyennes des groupes tires au hasard. 

Lorsque nous realisons une recherche, les effets experimentaux se distri- 
buent au hasard. C’est ainsi que pour evaluer cinq methodes d’apprentissage des 
mathematiques, nous choisissons 125 sujets que nous associons au hasard a cha- 
cune des cinq methodes. II n’y a pas de raison de suspecter que les individus de 
faible QI aient une probability plus grande d’etre associes a la moins bonne des 
methodes (- 3) et que les sujets les plus intelligents soient associes a la meilleure 
(+5). L’effet le plus fort peut se voir attribue a n'importe quel groupe. tout comrne 
l’effet le plus faible. 

Nous pouvons done envisager une situation ou l’effet +5 est ajoute au groupe 
le plus faible, alors que l’effet - 3 est ajoute au groupe le plus fort (tableau 6). Les 
consequences de cette simulation, la deuxieme de la figure 3, sont de rapprocher les 
moyennes les lines des autres et de reduire les ecarts observes lors des fluctuations 
normales d’echantillonnage. 
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3.3 Echantillonnage et analyse de variance 

La troisieme simulation dont les resultats apparaissent dans le tableau 6, presente une 
situation ou la variance inter est plus petite que la variance intra. Le rapport F est 
inferieur a I (F = 0,1) ce qui indique que les variations entre les moyennes ne sont 
que le dixieme de ce que nous serious en droit d’attendre si elles avaient varie alea- 
toirement. Lorsque I’hypothese nulle est vraie et que nos procedures d’echantillon- 
nage sont adequates, les variations d’echantillonnage n’entrament que ties rarement 
des valeurs de F ties inferieures a 1. Lorsque de telles valeurs se produisent, il f'aut 
s’interroger sur la valeur de notre dispositif d’echantillonnage ou de notre methode 
d’attribution des differents traitements experimentaux. 

D’autres procedures d’echantillonnage ont pour effet d’exagerer les ecarts 
entre les moyennes. En education, de telles situations sont frequentes. C’est le cas 
lorsqu’un echantillonnage par grappes (voir chapitre 6) est employe au lieu d’un 
echantillonnage aleatoire. Ceci se produirait si au lieu de tirer au hasard les 125 sujets 
de 1’ensemble de la population des eleves de cinquieme annee de la ville d’Ottawa, 
un chercheur avait choisi - pour des raisons pratiques - cinq classes de 25 sujets. 
Une fois qu’une classe est choisie, tous les eleves de cette classe deviennent sujets 
de I’etude. Dans ce cas-ci, il est possible que les eleves d’une meme classe soient 
plus homogenes qu’un groupe de 25 eleves tires de V ensemble de la population. La 
variance intra risque done d’etre sous-estimee. De plus, les moyennes de chaque 
classe risquent de refleter le milieu socio-economique des ecoles dont elles font par- 
tie. Les ecarts entre les moyennes de classes provenant de milieux differents risquent 
done d’etre exageres. La variance inter risque de surestimer la variance de la popu¬ 
lation. Les deux facteurs mis ensemble fontqu’il est beaucoup plus facile, au moyen 
d’un echantillonnage par grappes, d’obtenir un rappoil F eleve puisque la variance 


Tableau 6 — Simulation #3. Effets experimentaux : Groupe 1 = (+ 5) ; 

Groupe 4 = (- 3) 


Groupes 

Frequence 

Somme 

Moyenne 

Variance 

(Groupe 1) + 5 

25 

2 544,87 

101,79 

270,78 

Groupe 2 

25 


101,95 

267,00 

Groupe3 

25 

2511,50 

100,46 

308,99 

(Groupe 4|-3 

25 

2 573,33 

102,93 


Groupe 5 

25 

2 575,45 

103,02 


Moyenne 



102,03 


Variance des moyennes 



1,08 



ANOVA 


Source 

SC 

dl 


F 

Prob. de F 

Valuer crit. F 

Variance inter 

108,00 

4 


0,10 

0,98 

2,45 

Variance intro 

31 561,34 

120 

263,01 




Total 

31 669,34 

124 
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inter surestimera la variance de la population et la variance intra la sous-estimera. 
Lord (1959) a demontre qu’il fallait des echantillons de taille 12 a 30 fois plus grande 
pour realiser avec un echantillonnage par grappes des estimations de la moyenne 
similaires a celles d’un echantillonnage aleatoire simple. 

3.4 POSTULATS DE L'ANALYSE DE VARIANCE 

Ces dernieres observations nous permettent d’enoncer un certain nombre de condi¬ 
tions garantissant une utilisation appropriee de I’analyse de variance. Ces postulats 
sont les suivants : 

1 les echantillons sont tires au hasard d’une population normale ; 

2 les observations sont independantes entre elles ; 

3. les variances de l’ensemble des echantillons sont homogenes 

Ces postulats vont de soi. Si les variances des echantillons sont trop dilTerentes, 
la variance intra, calculee a partir de la moyenne des variances de chaque groupe, 
n’est plus une estimation fiable de la variance de la population Si les observations ne 
sont pas independantes, comme dans le cas d’un echantillonnage par grappes, [’esti¬ 
mation des variances inter et intra devient biaisee. Enfin, les distributions des resul- 
tats doivent permettre de considerer que chaque groupe a ete tire d’une population 
normale. II serait difficile de comparer des moyennes provenant de distributions qui 
different entre elles par leur symetne, leur kurtose, etc. 

3.5 Loi DE PROBABILITY DE F 

Si tous les postulats de I’analyse de variance sont respectes, alors les sources de 
variation de la valeur F, lorsque I’hypothese nulle est vraie, se limitent a deux : 

1 . le nombre de groupes ; 

2. La taille de l’echantillon de chaque groupe. 

Plus le nombre de groupes est eleve, plus la variance inter s’appuie sur un 
grand echantillon de moyennes pour estimer la variance de la population. De la meme 
fa?on, plus la taille des groupes estelevee, plus I’estimation de la variance intra sera 
precise. En conclusion, la probabilite de F depend de deux valeurs de degres de 
liberte : le nombre de moyennes des groupes libres de varier (k-1) et le nombre de 
resultats libres de varier a I’interieur de chaque groupe (n-1). 

Pour connaitre la valeur de probabilite de F , il faut consulter une table de 
Fisher (voir Table 2, Annexe 2). Cette table comporte deux entrees : la premiere pour 
les degres de liberte de la variance inter, la seconde pour les degres de liberte de la 
variance intra. Plus les degres de liberte sont eleves, plus il est possible de declarer 
une difference significative entre les moyennes a paitir d’une petite valeur de F supe- 
rieure a 1. Dans de telles circonstances, en eflet, les estimations des variances inter et 
intra sont les plus precises 

3.6 Lecture d'un tableau d'analyse de variance 

La presentation des resultats d’une analyse de variance suit certaines conventions 
qui en facilitent I’interpretation. Les tableaux 4 a 6 vous en fournissent des modeles. 
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Dans tous ces tableaux, les resultats des calculs sont presentes en indiquant dans 
chaque colonne les renseignements suivants : 

1 . la source (variance inter ou intra) ; 

2. SC : la somme des caries des ecarts a la moyenne ; 

3. dl. : les degres de liberte ; 

4. MC : la moyenne des caries ou variance. Elle est calculee en divisant la somme 

des canes par le nombre de degres de liberte ; 

5. le rapport F ; 

6 . la probability associee a F ; 

7 la valeur critique de F pour le niveau de signification choisi an prealable. 

Dans le tableau de I’ANOVA, les sommes des canes SC ne nous interesseiit 
pas vraiment. Elies servent principalement au calcul des moyennes de canes MC, 
ces estimations de la variance essentielles au calcul du rapport F. Pour interpreter ce 
rapport F, nous devoirs connaTtre sa probability pour les valeurs de degres de liberte 
en presence. Si cette probability est tellement faible qu’il y a pen de chances qu’un 
tel rappoil F se produise lorsque les moyennes ont ete tirees au hasard de la menre 
population, alors nous preferons accepter 1’hypothese alternative selon laquelle au 
moins une des moyennes n’est pas tiree de la menre population. A partir d’ici, nous 
appliquons les menres principes de decision statistiqne que ceux que nous avoirs vus 
pour la comparaison de deux moyennes (loi t de Student). 

Une autre fa^on d’evaluer F consiste, non pas a en connaTtre la probability 
exacte, mais a en comparer la valeur a une valeur seuil, appelee valeur critique, cor- 
respondant aux degres de liberte et au niveau de signification (type I d’erreur) choisi 
au prealable. Dans le cas du tableau 5, la valeur critique de F pour un niveau de 
signification de 0,05 vaut 2,45. Toute valeur de F superieure a 2,45 aura moins de 
5 % des chances de s’etre produite au hasard du fait de simples fluctuations d’echan- 
tillonnage. Dans ce cas-ci, la valeur calculee de F (3,58) etant superieure a la valeur 
critique, nous choisirons de rejeter I’lrypothese nulle et d'accepter 1’hypothese qu’au 
moins une des moyennes est differente ou ire provient pas de la menre population. 

3.7 Puissance de l'ANOVA 

L’analyse de variance est le test le plus puissant de comparaison de moyennes, 
lorsque les postulats sont respectes et que le modele statistiqne employe convient 
bien au plan d’observation. Tout conrnre dans le cas du test t , il existe une probability 
plus ou moins grande de prendre la bonne decision, soit de rejeter l’hypothese nulle 
lorsqu’elle est fausse, selon la precision avec laquelle nous estimons les moyennes et 
selon I’importance des effets experimentaux. 

Dans le cas des simulations precedentes, nous avoirs vu qu’une conjonction 
de circonstances particulieres avait contribue, dans un cas (tableau 6 ; simulation 
#2, figure 3) a accepter l’hypothese nulle, alors que dans un autre cas (tableau 5 ; 
simulation #3, figure 3), nous avions choisi de la rejeter, et ce pour des effets experi- 
mentaux identiques. Dans un cas, les fluctuations d’echaittillonnage se sont ajoutees 
aux effets experimentaux pour accroitre les differences entre les moyennes, alors que 
dans I’autre cas, elles ont contribue a les attenuer. Ces deux simulations decrivent 
une situation ou la puissance statistiqne pourrait etre qualifree de relativement faible, 
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Tableau 7 — Valeurs et probabilites de F, ainsi que de r|" pour les simulations 

1 a 3 (tableaux 4 6 6) 



Tableau 

F 

Probabilite de F 

i 

>r 

Simulation 1 (tf 0 vraie) 

4 

1,08 

0,371 

0,035 

Simulation 3 

6 

3,58 

0,009 

0,107 

Simulation 2 

5 

0,10 

0,981 

0,003 


parce que la variation causee par les el’fets experimentaux n’est pas beaucoup plus 
grande que les effets d’echantillonnage, du moins avec des echantillons de cette taille. 
Sans se livrer a des calculs importants, on peut dire que des effets de + 10 et - 15 
pourraient difficilement passer inapergus avec des echantillons de 25 sujets tires de 
la population que nous avons definie au depart. Par contre, pour deceler des effets de 
+ 3 ou - 2, il faudrait reduire considerablement la variance d’echantillonnage et le 
seul moyen de le faire serait d’accroitre considerablement la taille des echantillons. 

Pour avoir une idee exacte, non seulement de la probabilite d’une difference, 
mais aussi de son importance et de sa grandeur, de plus en plus de statisticiens cal- 
culent, en plus du rapport F, line valeur indiquant la grandeur de I’effet experimental. 
II existe plusieurs fagons de calculer une telle valeur, mais nous nous limiterons a la 
plus simple, if (elci-carre), calculee au moyen de Pequation suivante : 

tf = SCuml ~ SC In mi _ SC I* jg 

SC^ sc_, 

Si 1’on calcule la valeur de rf pour les trois simulations et que nous les comparons 
aux valeurs et probabilites de F, nous obtenons les resultats presentes au tableau 7. 

Ce tableau nous indique que meme lorsque F est significatif, 1’importance de 
I’effet experimental ne depasse guere 10 % de la Somme totale des carres II revien- 
dra au chercheur de determiner si un tel effet experimental, meme significatif, a une 
importance suffisante pour justifier de nouvelles recherches. 

3.8 Autres considerations sur l' A NOVA 

L’analyse de variance nous aura permis d’illustrer une autre facette de F inference 
statistique. En fait, PANOVA constitue une famille de tests statistiques qu’il serait 
impossible de decrire en un seul chapitre. Tout comme la loi t de Student permet de 
comparer deux moyennes tirees d’echantillons independants ou lies, la loi F de Fisher 
permet de mettre a I’epreuve des modeles experimentaux beaucoup plus complexes 
que le plan simple que nous venons de decrire. Ici encore, plus le modele experimen¬ 
tal est approprie, plus puissante est notre decision statistique. 

De nombreuses considerations entourent ^utilisation appropriee de PANOVA. 
Les exemples presentes sont des simulations qui representent des cas ideaux La 
realite est plus diversifiee. Les echantillons peuvent etre de tallies inegales suite au 
desistement d’un ou plusieurs sujets. Les distributions des resultats peuvent s’ecarter 
sensiblement d’une distribution normale. Chacun de ces cas particuliers requiert une 
solution que Pon pourra etudier dans les nombreux ouvrages traitant d’analyse de 
variance et d’inference statistique (Howell, 2008). 
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Suite a une analyse de variance, le chercheur peut etre interesse a determiner 
entre quelles moyennes les diff erences sont significatives. Des tests de comparaisons 
multiples des moyennes sont alors necessaires pour tenir compte du taux d’erreur 
par famille. L’analyse de variance permet de declarer s’il existe une ou plusieurs 
moyennes qui differe des autres. Elle ne nous precise pas cependant entre quelles 
moyennes ces differences se produisent. C’est pourquoi des tests post hoc existent 
afin de preciser entre quelles moyennes les differences les plus significatives se sont 
produites. Lorsque le chercheur, de par la formulation de ses hypotheses de recherche, 
ne s’interesse qu’a un nombre restreint de comparaisons bien determinees, le recours 
a des tests plus puissants de comparaisons a priori est alors possible. 

II y aurait encore beaucoup a dire sur I’analyse de la variance. En mesure, elle 
joue un role particulier comme moyen de calculer 1’importance de differentes sources 
de variation dans I’etude de la generalisabilite, une methode de calcul de la fidelite 
pour des plans complexes d’observation. Cette introduction vise a vous permettre de 
mieux comprendre la section 7 du chapitre 3. 

4. Relations entre variables : 

CORRELATION ET REGRESSION LINEAIRE 
4.1 Description de la relation entre deux variables 

Les constructeurs et les utilisateurs de tests sont interesses par les relations qui exis¬ 
tent entre les scores obtenus par les memes sujets sur differentes variables. Ces rela¬ 
tions sont particulierement importantes lorsque Ton etudie la validite d’un test ou 
d’un questionnaire et lorsque Ton desire realiser des predictions a partirdes resultats 
d’une ou de plusieurs epreuves. Par exemple, on peut evaluer la relation entre les 
scores d’un test d’admission a 1’universite et les resultats academiques en fin de 
premiere annee. On peut egalement apprecier la relation entre un questionnaire de 
depression et les evaluations f'aites par des cliniciens. Ou encore, on peut mesurer 
la relation entre 1’age des enfnnts et leurs scores a un test de vocabulaire. Dans 
tous ces cas, on se demande dans quelle mesure les differences observees sur une 
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Figure 4 — Representation graphique de la position de trois sujets en fonction de 

leurs scores a deux tests 
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des variables se refletent sur 1’autre. Deux moyens sont frequemment utilises dans 
ce but : le coefficient cle correlation et la cIroite de regression. Dans cette section, 
nous introduisons ces deux concepts. Nous insistons particulicrement sur les prin- 
cipes essentiels qui doivent guider I’interpretation des correlations et des fonctions 
de regression lineaire. 

La relation entre deux variables peut etre representee de maniere graphique 
au moyen d'un diagramme de dispersion. Les resultats sur la premiere variable sont 
notes sur I'axe horizontal, appele ubscisse, et ceux sur la seconde variable sont notes 
sur I’axe vertical, appele ordonnee. Chaque sujet possede ainsi deux coordonnees 
formees d’un couple de scores pour les deux variables en question. A partir de ces 
coordonnees, il est possible de situer un sujet sous forme d’un point dans I’espace 
bi-dimensionnel constitue par les deux axes d’un plan cartesien. Dans la figure 4, 
nous avons indique les points representant la position de trois sujets sur base de leurs 
scores a un test de fran^ais et a un test de mathematiques. 

Nous pouvons realiser la meme representation graphique pour tous les sujets 
d’un echantillon. Nous obtiendrons ainsi un nuage de points appele diagramme de 
dispersion dont la forme nous donne une premiere indication de la relation exis- 
tant entre les deux variables etudiees. La figure 5 presente quatre images de points 
qui constituent autant de types de relation entre les variables. Le graphique (A) est 
Fexemple d’une relation positive entre variables A une augmentation sur la variable 
X correspond une augmentation sur la variable Y. C’est le type de relation que Ton 
peut, par exemple, observer entre le Ql et les resultats scolaires. Dans le cas present, 
la relation n’est pas parfaite, ce qui n’est le cas que lorsque 1’augmentation de Y est 
exactement proportionnelle a chaque augmentation de X. Toutefois, malgre la varia¬ 
bility de la relation, nous pouvons constater que le image de points tend a prendre la 
forme d’une droite. Pour cette raison, la relation entre les deux variables est qualifiee 
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Figure 5 — Diagrammes cartesiens illustront differents types de relations entre 

variables 
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de lineaire. Nous reviendrons plus loin sur cette notion lorsque nous expliquerons le 
concept de regression. 

Le graphique (B) illustre une relation negative entre les variables Dans ce cas, 
a une augmentation de X correspond une diminution de Y. Nous pouvons observer 
une telle relation lorsque. par exemple, nous comparons le vieillissement, represente 
par 1’ftge du sujet, et les performances a un test de memoire. Le graphique (C) est 
I’exemple d’une absence de relation entre les variables. II n’y a aucune tendance 
systematique de Y a varier en meme temps que X. Par consequent, la valeur de X ne 
peut lien nous apprendre a propos de la valeur de Y. Enfin, le graphique (D) nous 
presente une relation non lineaire entre les variables. II y a bien une relation entre X 
et Y, mais celle-ci ne prend pas la forme d’une ligne droite. Dans 1’exemple present, 
le image de points prend la forme en 5 de l’ogive normale. Nous verrons dans le 
chapitre 7 differentes illustrations de ce type de relation dans le cadre des Modeles 
de la Reponse aux Items. 


4.2 Le coefficient de correlation 

En plus d’une representation graphique, il est possible de quantifier la relation exis- 
tant entre deux variables. Lorsque cette relation est fondamentalement lineaire et que 
les deux variables sont mesurees sur une echelle d’intervalle, on calcule habituelle- 
ment le coefficient de correlation de Bravais-Pearson. Celui-ci est egal a la covariance 
de X et de Y divisee par le produit des ecarts types de X et de Y ; 


COVyy 


(A.19) 


Rappelons que la covariance de X et Y peut etre calculee grace a la formule 
suivante : 


cov XY = 


£(x-x)(r-y) 


(A.20) 


Apres developpement, la formule permettant de calculer le coefficient de cor¬ 
relation peut des lors s’exprimerde lamaniere suivante : 


n^XY - 

(X*)(X0 


1 

IS*) 


(XO’) 


Lorsque les deux distributions sont exprimees en scores z, et qu’elles ont done 
une meme moyenne egale a 0 et un meme ecart type egal a 1, une formule beaucoup 
plus simple peut etre utilisee : 

(A.22) 


Le coefficient de correlation peut varier de - 1.00 a + 1,00. Lorsqu’il est egal 
a +1,00, nous avons affaire a une correlation positive parfaite entre les variables X et 
y. Lorsqu’il est egal a - 1,00, nous avons affaire a une correlation negative parfaite 
entre ces deux variables. Lorsqu’il est egal a 0, les deux variables sont non correlees 
ou independantes Nous pouvons illustrer 1’usage de cette formule avec les donnees 
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Tableau 8 — Resultats d'un test de colcul mental et d'un test de memoire |N=92) 


Sujets 

Test de calcul 

Test de memoire 

1 

8 

7 

2 

9 

6 

3 

9 

9 

4 

8 

8 

5 

6 

11 

6 

5 

9 

7 

16 

12 

8 

10 

8 

9 

13 

17 

10 

6 

9 





presentees dans le tableau 8. II s’agit des resultats de deux tests passes par un echan- 
tillon de 92 enfants ages de 8 ans et demi. Le premier test est une epreuve de calcul 
mental et le second evalue la memoire de series de chiffres. Pour des raisons de 
place, nous ne donnons ici qu’une partie des donnees. Par contre, nous presentons 
tous les resultats des calculs intermediaires qui permettent ensuite de calculer le 
coefficient de correlation. 

I X = 934 X X 2 = 10 430 X 0 = 941 £ V 2 =10 503 £ XY = 10046 (A.23) 


_ 92 x (10046)-(934 x 941) _ 

92 x (10 430) - 872356)(92 x (10 503)- 885 481) 


(A.24) 


II ne suffit pas de calculer correctement le coefficient de correlation encore faut-il 
Pinterpreter adequatement. Que signifie en effet une correlation de 0,54 entre deux 
tests ? Pour realiser cette interpretation, un certain nombre de regies doivent etre 
respectees. 

II faut tout d’abord tenir compte de la signification statistique du coefficient 
obtenu. Celui-ci est en effet calcule a pailir des resultats d’un echantillon de la popu¬ 
lation. II se peut qu’au sein de cette population la correlation entre les variables soit 
nulle et que le coefficient observe soit different de zero du seul fait du hasard. II est 
done necessaire de tester 1’hypothese selon laquelle la correlation est effectivement 
nulle. Pour ce faire, on peut estimer le parametre t a 1’aide de la formule suivante : 




rj n - 2 

Vi - /••’ 


(A.25) 


Le parametre se distribue comme 1 avec n 2 degres de liberte. Nous pouvons des lors 
comparer la valeur obtenue avec les valeurs critiques de la distribution t de Student 
pour le nombre adequat de degres de liberte. Si la valeur obtenue est superieure a la 
valeur critique, nous pouixons considerer que le coefficient de coixelation observe est 
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significativement different de zero, Appliquons cette formule au cas du coefficient de 
correlation calcule ci-dessus : 


0,54(W92-2 
Vl -(0,540) 2 


6,09 


(A.26) 


Cette valeur est significative an seuil de 0,001. Par consequent, nous pouvons affir- 
mer qu’il existe bien une correlation lineaire non nulle entre les performances au 
test de calcul mental et a celui de memoire de chiffres pour les enfants de 8 ans 
et demi. 

Mais une correlation significative n’implique pas qu’il existe une relation 
etroife entre les variables considerees. Pour inteipreter correctement la relation 
entre les variables, il est utile de calculer le coefficient de determination (r) qui 
est egal au cane du coefficient de correlation. La valeur r 2 peut en effet etre 
interpretee comme la proportion de variance d’une des mesures qui est liee a la 
variance de 1’autre mesure. Par exemple, la correlation de 0,540 entre les deux 
tests presentes plus haut signifie que 29 % (c’est-a-dire 0,54 2 ) de la variance 
des scores a Pun des tests est liee a la variance des scores a 1’autre test. Par 
consequent, 71 % de la variance observee sur la premiere variable est sans rela¬ 
tion lineaire avec la seconde variable. Pour il lustier d’une autre maniere la meme 
idee, nous pouvons dire que, connaissant les resultats au test de calcul mental, 
nous lie pouvons predire que 29 % de la variance des scores au test de memoire 
de chiffres. Cette maniere d’aborder les coefficients de correlation nous permet 
d’avoir une idee plus juste de leur importance. Souvent des coefficients sont 
significatifs, mais ne nous apportent que peu d’information. Par exemple, un coef¬ 
ficient de 0,25 signifie que seulement 6,25 % de la variance est partagee par les 
deux variables considerees. 

Parlant des correlations entre variables, nous avons utilise des termes 
comme « liaison », « association », « prediction » en evitant soigneusement d’in- 
ferer une relation de cause a effet entre les variables. En fait, 1’explication de la 
relation observee entre deux variables est une question exterieure a la statistique 
Cette interpretation doit se faire sur base d’un modele theorique de la realite etu- 
diee. Dans l’exemple ci-dessus, nous pourrions interpreter la correlation observee 
en nous appuyant sur un modele theorique de la resolution de problemes arith- 
metiques. Dans certains cas, nous pourrons avancer 1’hypothese d’une relation 
de cause a effet entre les variables. Mais, souvent, nous devious postuler le role 
de variables sous-jacentes aux variables observees pour expliquer la liaison entre 
celles-ci. Par exemple, nous pourrions expliquer la correlation entre les scores a 
un test d’arithmetique et a un test de langue maternelle par la variable « annee 
d’etude » ou par la variable « intelligence » (ou encore par une interaction de 
ces deux variables). Parfois, certaines correlations ne sont pas interpretables car 
elles sont le fruit du seul hasard. Par exemple, en Allemagne, apres-guerre, on 
a observe une relation entre le nombre de cigognes et le nombre de naissances. 
Dans ce cas, aucune theorie serieuse ne permettait d’expliquer cette association 
purement fortuite. 

Dans certains cas, le coefficient de correlation peut etre sous-evalue du fait de 
la reduction de I'etendue des scores sur Pune des variables. En psychometric, nous 
avons affaire a une reduction de I’etendue lorsque les resultats d’un groupe particulier 
se concentrent sur une zone etroite de I’etendue possible des scores. Cette situation 




336 


Notions d'inference statistique 


se presente frequemment lorsque I’on veut valider des tests de selection en entreprise 
ou en education Par exemple, il est logique de vouloir evaluer la validite predictive 
d’un examen d’entree dans I’enseignement superieur en calculant la correlation entre 
les scores a cet examen et la moyenne des resultats en fin de premiere annee. Toute- 
fois, en procedant de la sorte, on sous-evalue automatiquement la correlation entre les 
deux variables concernees. En effet, seuls les meilleurs etudiants out ete selectionnes 
sur base de leurs resultats a I’examen d’entree. Par consequent, les resultats des exa- 
mens de fin de premiere annee presentent une variability sensiblement reduite puisque 
les etudiants les plus faibles au test d’entree n’ont pas eu I’opportunite de passer ces 
examens. 

Une illustration graphique permet de comprendre aisement pourquoi la reduc¬ 
tion de Fetendue des scores entraine une sous-estimation du coefficient de correla¬ 
tion. La figure 6 presente le diagramme cartesien pour deux series de scores obtenus 
par tin echantillon de sujets. Lorsque nous observons le nuage de points pour Fen- 
semble du groupe, nous remarquons la forme elliptique caracteristique d’une liaison 
positive d’intensite moyenne entre les deux variables (le coefficient de correlation est 
ici egal a 0,60). Si, a present, nous ne nous interessons qu’aux sujets se situant dans 
le tiers superieur de la distribution des scores de la variable X (partie encadree), le 
nuage de points n’est plus du tout elliptique, ce qui indique une ties faible correlation 
entre les deux variables. 

Dans certains cas, le coefficient de correlation peut chuter dramatiquement 
lorsque Fetendue des scores est fortement reduite. Un exemple celebre est donne par 
Thorndike (1949, pp. 170-171) concernant un programme de selection de 1’US Air 
Force. Une batterie de tests avait ete constitute pour predire le succes dans 1’appren- 
tissage du pilotage. Sur base des resultats a ces tests, seuls 13 % des candidats etaient 
suffisamment qualifies pour etre admis dans le programme d’apprentissage. Toutefois, 
dans un but experimental, on decida d’admettre tous les candidats. A la fin de la 
periode d’entrainement, on evalua les qualites de pilote de chacun et Ton calcula les 
correlations entre ce critere et les resultats aux differents tests. Ces correlations furent 
calculees pour I "ensemble du groupe (N = I 036) et pour le groupe des meilleurs 
candidats (N= 1 36). On constata ainsi que la correlation entre le critere et le test de 
coordination complexe etait de 0,40 pour 1’ensemble du groupe et de - 0,03 pour le 
groupe restreint. De meme, la correlation entre le critere et le score composite d’ap- 
titude etait de 0,68 pour 1’ensemble du groupe et de seulement 0,18 pour le groupe 
des meilleurs candidats. La valeur des predictions realisees a 1‘aide de la batterie de 
tests etait done tres faible si foil se basait sur les seuls resultats des candidats les plus 
brillants. Par contre, cette meme qualitedes predictions etait satisfaisante lorsque l’on 
evitait la reduction de Fetendue des scores en calculant les coefficients de correlation 
a partir des resultats de fensemble du groupe. 

Dans 1’exemple que nous venous de citer, il a ete possible d’evaluer correcte- 
ment la correlation entre les variables puisque les chercheurs possedaient les resultats 
pour fensemble du groupe. Malheureusement, cette information fait souvent defaut 
dans les etudes de validite. C'est ce qui se passe, par exemple, pour les tests d’ad- 
mission. Dans ce cas, nous ne possedons les resultats au critere que pour les sujets 
qui out ete selectionnes sur base du test initial. Il est toutefois possible de corriger le 
coefficient obtenu a partir de f echantillon restreint et d’obtenir une meilleure estima¬ 
tion de la validite du test. Le coefficient corrige n’est cependant qu’une approxima¬ 
tion et doit etre utilise avec prudence. 
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Figure 6 — Effet de la reduction de I'etendue des scores sur le coefficient 

de correlation 


4.3 La droite de regression 

Lorsque la relation entre deux variables est asse7, etroite et lineaire, il est interessant 
de representer cette relation sous la forme d’une droite traversant le nuage de points. 
Cette ligne, appelee droite de regression, est la meilleure ligne droite representant 
les points faisant partie du diagramme de disperson. La figure 7 presente la relation 
entre les resultats d’un echantillon de 100 sujets ages de 65 a 69 ans aux epreuves 
d’information et de vocabulaire du test d’intelligence WA1S-R. La correlation entre 
ces deux variables est egale a 0,869. Au centre du diagramme de dispersion est tracee 
la droite de regression. 



Figure 7 — Exemple de droite de regression 
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La droite de regression est ties utile lorsque nous souhaitons predire les resul- 
tats sur une variable a partir des scores sur 1’autre variable. Cette technique est sou- 
vent utilisee avec les tests de selection et d’orientation. Par exemple, sur base des 
performances a un test de mathematiques, on pent estimer les futurs resultats dans 
une section scientifique. Cette prediction constitue une information interessante pour 
aider les etudiants a s’orienter dans leurs etudes. 

La droite de regression est definie par une equation de la forme Y = bX + a. 
Dans le cas present, cette equation s’ecrit : 

Y = bX + a (A.27) 

Y = la valeur de Y predite a partir de X (1’accent circonflexe sur Y indique que 
les valeurs de Y calculees a partir de X ne sont que des estimations des valeurs 
exactes de Y). 

b - la pente de la droite de regression (elle correspond a la difference de 
valeur sur 1’ordonnee associee a une difference d’une unite sur Labscisse). 
a = I’intersection de la droite avec 1’ordonnee lorsque X = 0. 

Pour determiner la droite de regression la plus proche possible des valeurs 
effectives de Y , il nous faut trouver les valeurs de a et de b qui definissent la fonction 
lineaire qui s’ajuste le mieux aux donnees. En d’autres termes, nous devons determi¬ 
ner les valeurs a et b qui minimisent 1’erreur de prediction de fa partir de X. Cette 
erreur peut etre evaluee a partir de la formule suivante : 

erreur de prediction - Y) (A.28) 


Cette quantite, permettant de selectionner la meilleure fonction lineaire, est appelee 
le critere des moindres can es. Les valeurs de a et de b qui minimisent cette quantite 
peuvent etre trouvees au moyen des formules suivantes : 


cnv xl = N^XY-^Xj^Y 

4 “ a/Xx-'-(Xx) j 


(A.29) 


Y-bZx - - 

--=— = Y -bX (A.30) 

N 

Appliquons ces formules a I’exemple ci-dessus, dont un extrait des donnees et le 
resultat de quelques calculs intermediaires sont presentes dans le tableau 9 : 


(100 x 12106) - (I 035 x 1051) 
(100 x 12 081)-(1 035) 3 


0,897 


(A.31) 


I 051 -(0,897 x 1 035) 

a = - 

100 


1,226 


(A.32) 


Dans ce cas, I’equation de regression peut s’ecrire : Y = (0,897)X + 1,226 

Grace a cette equation, nous pouvons maintenant estimer les valeurs^ de Y pour 
chaque valeur de X. Par exemple, si X = 2 alors Y = 3,02 et si X = 14 alors Y = 13,784. 

II est important de souligner que I’equation de regression que nous avons 
determinee ci-dessus nous permet d’estimer les valeurs de Y a partir des valeurs de X, 
mais non 1’inverse. Si nous voulons estimer X a partir de K, il nous faut estimer les 
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Tableau 9 — Extrait des resultats aux tests de vocabulaire (X) 
et d'information (Y) (N= 1 00) 


sujets 

test de vocabulaire 

test d'information 

1 

15 

12 

2 

11 

8 

3 

8 

7 

4 

6 

7 

5 

7 

5 

6 

16 

15 

7 

7 

7 

8 

13 

16 

9 

12 

14 

10 

15 

13 





= 1 035 = 12 081 £ Y = 1 051 % XY = 12106 (A.33) 

parametres qui minimisent £ (X - X)\ car les droites de regression de Y sur X et de 
X sur Y ne coincident pas. 


Par ailleurs, nous ne devons pas oublier que les valeurs de Y que nous calculous a 
1 ’aide de I’equation de regression ne sont que des estimations des valeurs reelles. 
Les coordonnees des valeurs de X et des estimations de Y torment une droite parfaite 
alors que les valeurs effectives de Y se dispersent autour de cette droite. En fait, les 
valeurs que nous obtiendrions si nous pouvions mesurer directement la variable Y se 
distribuent normalement autour des valeurs estimees. Les distributions de Y autour de 


Y 



Figure 8 — Exemples de distributions conditionnelles de Y 
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chaque valeur estimee sont appelees les distributions conditionnelles de Y. La figure 8 
permet de mieux comprendre ce que representent ces distributions. Nous avons trace 
la distribution de frequences des valeurs effectives de Y pour trois estimations Y. 
Nous pouvons constater que la moyenne de ces distributions correspond a la valeur 
estimee. Quant a I’ecart type de ces distributions, il nous informe sur I’erreur de node 
estimation. Plus cet ecart type est important, plus notre estimation risque d’etre eloi- 
gnee de la valeur que nous aurions pu obtenir en mesurant directement Y. 

Cette erreur d’estimation est ties utile pour le praticien. A I’aide de cette 
erreur, celui-ci peut construire un intervalle de confiance autour de la valeur estimee. 
II peut ainsi se faire une idee de 1’approximation de son estimation de Y a partir de 
X. Ceci est important lorsque nous utilisons les resultats d’un test dans un but de 
prediction. L’usage systematique de I'intervalle de confiance nous conduit en effet 
a une plus grande prudence dans nos decisions. L’erreur type d’estimation peut etre 
calculee a I’aide de fa formule suivante : 



(A.34) 


Dans notre exemple, I’erreur type d’estimation est egale a 1,909 Cela signifie que, 
pour X = 2, la valeur estimee de Y etant egale a 3,017, nous pouvons en deduire 
qu’environ 68 % des valeurs effectives de Y sont incluses dans 1’intervalle compris 
entre (3,017 - 1,909) et (3,017 + 1,909). Rappelons en effet que, si la distribution est 
normale, 68 % des valeurs observees se situent dans 1’intervalle de moins un ecart 
type et plus un ecart type autour de la moyenne. Si nous souhaitons un intervalle 
incluant 95 % des valeurs autour de la moyenne, il nous suffit de prendre 1,96 ecails 
types autour de la valeur observee. Dans notre exemple, les bornes seront des lors : 
(3,017 - 1,96(1,909)) et (3,017 + 1,96(1,909)), c’est-a-dire 0,724 et 6,759. Concre- 
tement, cela signifie que, sur base d’un resultat egal a 2 au test de vocabulaire, nous 
pouvons predire que le resultat au test d’information sera egal a 3. Mais les resultats 
que nous pourrons effectivement observer a ce test auront 95 % de chances de se 
situer entre - 1 et + 7 points. Une telle observation doit nous inciter a la prudence 
lorsque nous utilisons une valeur estimee pour prendre des decisions. 

L’usage d’un intervalle de confiance unique, quelle que soit la valeur estimee, 
repose sur deux postulats : (1) les distributions conditionnelles de Y suivent la loi 
normale, (2) les variances de toutes ces distributions sont egales. Ce dernier postulat 
d’homogeneite de la variance (appele aussi postulat d’ liomoscedcisticite) est souvent 
difficile a satisfaire parfaitementavec des donnees reelles. Par consequent, 1’usage d’un 
intervalle de confiance unique peut conduire a des erreurs. Certains auteurs recomman- 
dent par consequent de calculer I’erreur de mesure pour chaque estimation de Y (voir 
par exemple Howell, 2008, pp. 258-259, pour une description de ce calcul). Cette pro¬ 
cedure, trop lourde pour un usage routinier, est cependant recommandee lorsque I’on 
definit des scores « seuils » dans un test de selection ou d’admission. 


5. Le choix de la bonne methode statistique 

La grande variete des techniques statistiques disponibles rend complexe le choix de 
la methode qui convient le mieux a un test d’hypothese. Ce choix est d’autant plus 
important qu’il influence directement le type d’erreur et la puissance de nos deci- 
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sions statistiques. Quoique ce chapitre et le chapitre 2 n’aient fait qu’introduire un 
petit nombre de techniques statistiques parmi les plus repandues et les plus souvent 
employees, il est important de bien les situer dans un contexte global ainsi que les 
unes par rapport aux autres. 

Le tableau 10 propose d’organiser les principales techniques statistiques sous 
forme d’un tableau a double entree. Les rangees distinguent entre statistiques cles- 
criptives et statistiques inferentielles. Les colonnes identilient les variables prises en 
consideration par chacune des techniques. 

Parmi les statistiques descriptives, nous retrouvons toutes les valeurs de dis¬ 
tribution pour une seule variable dependante abordees dans le chapitre 2 : moyenne, 
ecart type, variance. Nous y retrouvons aussi la correlation entre deux variables et 
un prolongement de cette technique a plusieurs variables dependantes, I’analyse fac- 
torielle exploratoire. L’analyse factorielle exploratoire permet d’identifier a partir 
d’une matrice de correlations les traits Intents qui permettent de regrouper plusieurs 
variables dependantes en un petit nombre de facteurs independants. II en a ete ques¬ 
tion au chapitre 4 

Bien souvent, cependant, nous sommes interesses a aller au-dela de la descrip¬ 
tion d’un echantillon. Nous voulons deduire certaines caracteristiques de la population 
a partir de celles de Fechantillon. C’est l’objet de l’ensemble des statistiques inferen¬ 
tielles vues dans cette annexe. Parmi les techniques impliquant une seule variable 
dependante, nous retrouvons l’estimation de la moyenne de la population. Parmi 
les techniques impliquant une variable dependante et une variable independante, on 
retrouve les tests de comparison de moyennes (tests t de Student) et F analyse de 
variance (ANOVA) qui peut impliquer plus d’une variable independante (chapitre 3). 
On retrouve egalement dans cette categorie le test de signification d’une correlation et 
toutes les techniques apparentees a Vanalyse de regression, dont la regression logis- 
tique des modeles de reponses aux items (chapitre 7) constitue un cas particulier. II 
existe aussi toute la famille des statistiques multivariees dont nous ne ferons pas etat 
dans ce livre. Cette famille regroupe toutes les techniques statistiques permettant le 
test d’hypotheses portant sur plusieurs variables dependantes : c’est le cas de Vana¬ 
lyse de variance multivariee et de F analyse discriminante. 


Tableau 10 — Synthese des principales techniques statistiques 



Statistique univariee 
(1 variable dependante) 

Statistique univariee (1 variable 
dependante, 1 variable 
independante ou plus) 

Statistique multivariee 
(plusieurs variables 
dependantes) 

Statistiques 

descriptives 

Moyenne, voriance, ecart type 

Correlation simple (de Pearson) 
Correlation por rungs de Speormon 

Analyse factorielle 
exploratoire 

Statistiques 

inferentielles 

parametriques 

Estimation de lo moyenne 
Estimation de la variance 

Test), ANOVA 

Test de signification sur la correlation 
Analyse de covorionce, analyse 
de regression 

Analyse factorielle 
confirmotoire 

Analyse de variance 
multivariee 

Statistiques 
inferentielles 
non parame¬ 
triques 

Test du X ! pour un echantillon 

Test du X 7 pour deux echantillons 

Test de signification du W de Kendall, 
rho de Spearman 

Analyse de correspon¬ 
dence (dual scaling) 
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Enfin, nous pourrions etablir ime distinction supplementaire a 1 ’ interieur de 
la categorie des statistiques inferentielles. On peut differencier ces techniques sta~ 
tistiques selon qu’elles font appel a 1’estimation des parametres de la population ou 
non. Dans le premier cas, nous parlerons de statistiques pammetriques : c’est le cas 
de toutes les techniques que nous avons vues jusqu’a present. Toutes reposent sur 
des echantillons dont les resultats se distribuent normalement. Toutes font appel au 
calcul des principaux parametres de la distribution normale que sont la moyenne et la 
variance. Dans le second cas, nous parlerons de statistiques non pammetriques. Cette 
categorie d’outils statistiques permet le test d’hypotheses en 1’absence de postulats 
concernant la distribution de la population et ses principaux parametres. C’est le cas 
des tests de comparaison de frequences (chapitre 5 : test cl it X 2 - khi-carre) ou des 
medianes. C’est le cas aussi des coefficients de correlation par rangs tels que le rlto 
de Spearman (chapitre 5) ou le W de Kendall (chapitre 4). II existe plusieurs ouvrages 
discutant des proprietes de ces outils statistiques, particulierement puissants avec des 
echantillons restreints (n < SO). Pour une bonne introduction a I’ensemble de ces 
outils statistiques, nous recommandons 1’ouvrage de Siegel et Castellan (1988). 

Plusieurs techniques statistiques ont ete expliquees dans cette annexe. Les 
theories de la mesure font appel a 1’application de ces techniques a des problemes 
particuliers de quantification. Au moyen de cette annexe, nous esperons avoir per- 
mis au lecteur d’assimiler les principaux elements de statistique theorique pour lui 
permettre de bien suivre les chapitres du livre. Ceci etaiu dit, nous avons restreint au 
minimum ces aspects theoriques afin de pouvoir nous concentrer sur les problemes de 
statistique appliquee que pose la mesure en psychologie et en education. Le lecteur 
qui souhaite approfondir les fondements theoriques des techniques abordees pourra 
faire appel aux nombreuses references a la fin de ce livre. Quant au lecteur deja fami- 
lier avec les statistiques, cette annexe constituera un rappel dont il pourra ou non se 
prevaloir. 




AN NEXE 2 

TABLES STATISTIQUES 


Table 1 : Points de pourcentage superieurs de la distribution de X . 
Table 2 : Valeurs critiques de la distribution de F. 

Table 3 : Points de pourcentage superieurs de la distribution t. 
Table 4 : La distribution normale (z). 


Source ;Toutes ces tables proviennent de I'ouvrage de David C. Howell, Methodes statistiques en sciences 
humaines, publie en longue francoise par les editions De Boeck (Bruxelles). Elies sont reproduites aver la 
permission des editions De Boeck. 
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Note: En ligne, les degres de liberte pour le numerateur el, en tolonne, les degres de liberie pour le denominoteur. 
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Tables statistiques 



Note: En ligne, les degres de liberie pour le numeroteur et, en colonne, les degres de liberie poor le denominateur. 
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3 - 

a = 

2 

3 

4 993 

5 377 

99.01 

9915 

30 82 

29.46 









7 

8 

9 

5 992 

6 096 

6132 

99.35 

99.39 

99 40 

27.67 

27.49 

27.34 





1 4 048 4 993 5 377 5 577 5 668 5 924 5 992 6 096 6 132 6 168 6 079 6 168 6 214 6 355 6 168 6 213 

2 98.50 99.01 99.15 99.23 99.30 99.33 99.35 99.39 99.40 99.43 99.38 99.48 99.43 99.37 99.44 99.59 

3 34.12 30 82 29.46 28.71 28.24 27.91 27.67 27.49 27.34 27 . 23126.87 26.69 26.58 26.51 26.41 26.36 


25 

30 

40 

50 

6 214 

6 355 

6168 

6213 

99.43 

99.37 

99.44 

99.59 

26.58 

26.51 

26.41 

26.36 


































































































































Table 3 — Points de pourcentage superieurs de la distribution t. 
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Table 4 — (suite) 


z 

Dela 

moyenne 

a z 

Plus 

grande 

portion 

Plus 

petite 

portion 

y 

Z 

De la 
moyenne 
dz 

Plus 

grande 

portion 

Plus 

petite 

portion 

y 

72 

.2642 

7642 

.2358 

.3079 

1.17 

.3790 

.8790 

.1210 


.73 

.2673 

.7673 

.2327 

.3056 

1.18 




.1989 

.74 

.2704 

.7704 

2296 

.3034 

1.19 

.3830 

.8830 



.75 

.2734 

.7734 

.2266 

.3011 

1.20 

.3849 

.8849 

.1151 

.1942 

.76 

.2764 

7764 

.2236 

.2989 

121 

.3869 

.8869 

.1131 

.1919 

77 

.2794 

.7794 

.2206 

.2966 

1.22 

.3888 

.8888 

.1112 

.1895 

.78 

.2823 

.7823 

.2177 

.2943 

1.23 

.3907 

.8907 

.1093 


.79 



.2148 

.2920 

124 


.8925 

.1075 

.1849 


.1826 




1 020 i .1781 



0548 .1109 


0537 .1 092 
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GLOSSAIRE DES PRINCIPAUX SYMBOLES 


A asymetrie 

a t parametre de discrimination de I'ilem (MRI) 

a leltre grecque alpha en minuscule 

a niveau de signification (erreur de type l| 

coefficient de coherence interne (alpha de Cronbach| 
b, parametre de difficulty de I'item (MRI) 

/3 leltre grecque be/a en minuscule 

/3 erreur de type II 

c ; coefficient de pseudochance (MRI) 

CCI courbe caracteristique d'item 

X leltre grecque chi en minuscule 

X 2 chi-carre 

D ( indice de discrimination de Findley 

dl degre de liberte 

E esperance mathematique 

e constanie de Neper =2718 

F rapport de Fisher (ANOVA) 

f(x) fonction de x 

0 letlre grecque phi en minuscule 

0 coefficient de correlation phi 

FDI fonctionnement differentiel d'item 

I Intervalle semi-interquartile 

K kurlose 

KR 70 coefficient de Kuder-Richardson, formule 20 

KR 2 1 coefficient de Kuder-Richardson, formule 21 
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Glossoire des principaux symboles 


MR! 

m 


P 

P 

Md 

N 

n 

Pi 

r 

P 

P 

s 

<T 

<T 

S* 

c2 


S 


rx 


O' 


TCS 


0 

0 

X 

X 

Y 

Y 


Operateurs 

N 

x 

X 

TT 

n 

<, < 

>, > 


*■ 


modele de reponse a I'item 
moyenne de lechantillon 
lettre mu grecque minuscule 
moyenne de la population 
Mediane 

faille de la population 
laille de I'echantillon 
coefficient de difficulty 
correlation de Pearson (echantillon) 
lettre grecque rho en minuscule 
correlation de Pearson (population) 
ecart type de lechantillon 
lettre grecque sigma en minuscule 
ecart type de la population 
erreur type de I'echantillon 
erreur type de la population 
variance de I'echantillon 
erreur type d'estimation 
erreur type de la difference 

variance de la population 

covariance de I'echantillon 

covariance de la population 

t de Student (comparaison de moyennes) 

theorie classique des scores 

lettre grecque fhe/a en minuscule 

variable latente du niveau d'habilete (MRI) 

score ou variable independante 

Moyenne des valeurs de X 

score ou variable dependanle 

valeur predite de Y 

score centre reduit ou score standard 

valeur absolue de a 
lettre grecque sigma en majuscule 
sommation de toutes les valeurs 
lettre grecque pi en majuscule 
multiplication de toutes les valeurs 
plus petit, plus petit ou egal 
plus grand, plus grand ou egal 
approximativement egal 
different, inegal 
infini 


CO 
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Francois 

Alealoire 

Analyse en composantes principals 

Analyse faclorielle 

Apparier 

Asymetrie 

Asymetrie 

Biais 

Bornes cullurel/es 
Carre moyen(CM) 

Choix alealoire 
Choix ou hasard 
Coefficient d'assurance 
Coefficient de determination 
Coefficient de fidelile 
Coherence de la decision 
Coherence interne 
Composante de variance 
Concept hypothetique 
Correlation letrochorique 
Colation 

Courbe caracteristique de I’item 
C our be caracteristique du test 
Courbe lissee 


Anglais 

Random 

Principal component anolysis 

Factor Anolysis 

Equate 

Asymelry 

Skewness 

Bias 

Cultural reducedness 
Mean square (MS) 

Guessing 

Guessing 

Index of dependability 
Coefficient of determination 
Reliability coefficient 
Decision consistency 
Internal consistency 
Variance component 
Construct 

Telrachoric correlation 
Scoring 

Item characteristic curve 
Test characteristic curve 
Smoothed curve 
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Covariance 

Critere 

Degre de liber/e 

Diagramme en tiges el en feuilles 

Dichotomique 

Difficulty de I'item 

Dimension 

Dispositif 

Dislracteur 

Distribution binomiale 
Distribution nor male 
Ecart type 
Echantillonnage 
Echantillonnage par grappes 
Echantillonnage par quota 
Echantillonnage stratifie 
Echantillonnage systematique 
Echantillons lies 
Echantillons paires 
Echelle de eolation 
Echelle de Guttmar i 
Echelle de rangs 
Echelle de rapport 
Echelle en stanine 
Echelle nominale 
Echelle ordinale 
Echelle proportionnelle 
Echelonnage 

Effect'd fse dit surtoul des sujetsj 

Effet principal 

Erreur absolve 

Erreur d'estimation 

Erreur de me sure 

Erreur de type I 

Erreur de type II 

Erreur relative 

Erreur type 

Erreur type de me sure 

Erreur type d'estimation 

Estimation du maximum de vraisemblance 

Etalonnage 


Covariance 

Criterion 

Degree of Freedom 

Stem and leaves histogram 

Dichotomous 

Item difficulty 

Dimension 

Design 

Distractor 

Binomial distribution 
Normal distribution 
Standard deviation 
Sampling 
Cluster sampling 
Quota sampling 
Stratified sampling 
Systematic sampling 
Matched samples 
Matched samples 
Rating scale 
Guttman scale 
Ordinal scale 
Ratio scale 
Stanine scale 
Nominal scale 
Ordinal scale 
Ratio scale 
Scaling 
Frequency 
Main effect 
Absolute error 
Estimation error 
Measurement error 
Type 1 error 
Type II error 
Relative error 
Standard error 

Standard error of measurement 
Standard error of estimate 
Maximum likelihood estimation |MLE) 
Standardization 
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Etalonner 

Evaluation 

Facette 

Fidelile 

Fonction caracteristique de I'item 
Fonction d'information 
Fonctionnemenl differentiel d'item 
Frequence 
Frequence observee 
Frequence theorique 
Generalisabilite 
Graphique de dispersion 
Groupe de reference 
Groupe focal 
Incident critique 
Independence locale 
Indice 

Indice de difficulte 

Intervalle de confiance 

Inlervalle semi-interquartile 

Kurtose 

Leurre 

liaison 

lissage 

Matrice des variances-covarionces 

Mediane 

Mesure 

Mesute du changement 
Met hod e de bissection 
Methode des moindres cartes 
Methode du graphique Delta 
Mt'se en equivalence 
Mise en equivalence equipercentile 
Mise en equivalence lineaire 
Modele 

Modele binomial composite de I'erreur 
Modele binomial de I’erreur 
Modele de la reponse a I'item fMRIj 
Modele logislique a I paramelre 
Moments 
Monotone 


Standardize 

Assessment 

Facet 

Reliability 

Item characteristic function 
Information function 
Differential Item Functioning 
Frequency 

Observed frequency 
Expected frequency 
Generalizobility 
Scatlerplol 
Reference group 
Focal group 
Critical incident 
Local independence 
Clue 

Difficulty index 

Confidence interval 

Semi-quartile interval 

Kurlosis 

Distraclor 

Linking 

Smoothing 

Variancecovariance matrix 
Median 
Measurement 
Measurement of change 
Split-halves method 
Leost squares method (LSM) 
Delta-plot method 
Equating 

Equipercentile equating 
Linear equating 
Construct 

Compound binomial error model 

Binomial error model 

Item response model (IRM) 

One-porameler logistic model 

Moments 

Monotone 
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Moyenne 

Moyenne 

Multidimensionnel 

Nichage 

Note de cesure 

Parametre de pseudo-chance 

Pente 

Plan 

Polychotomique 
Pourcentage daccord 
Premisse 
Pretest 

Puissance statist/que 
Qualite de I'ajustemenl 
Question « vrai-faux » 

Question a choix force 
Question a choix multiple 
Question a reponse « vrai-faux » 
Question a reponse breve 
Question a reponse narrative 
Question d'appariement 
Question de performance 
Question fermee 
Rang percentile 
Repartition de la variance 
Reponse contrainte 
Reponse etendue 
Residu 

Saturation factorielle 
Score brut 
Score composite 
Score dechelle 
Score en niveau d'age 
Score en niveau scolaire 
Score pondere 
Score seuil 
Score vrai 
Score z normalise 
Somme des carres(SC) 
Sousscore 

Specification d'un test 


Average 

Mean 

Multidimensional 

Nesting 

Cut score 

Pseudo-guessing parameter 

Slope 

Design 

Polychotomous 
Percentage of agreement 
Premise 
Field-test 
Statistical power 
Goodness-of-fit 
Alternate choice item 
Forced-choice item 
Multiple-choice item 
True-false item 
Short-answer item 
Essay item 
Matching item 
Performance item 
Constructed-response item 
Percentile rank 
Partition of the variance 
Restricted response 
Extended response 
Residual 
Factor loading 
Raw score 
Composite score 
Scaled score 
Age-equivalent score 
Grade-equivalerl score 
Weighted score 
Cut score 
True score 
Normalized z-score 
Sum of squares(SS) 
Subscore 
Test specification 
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Standard 
Standardiser 
Stanine 

Statistiques inferenlielles 

Taxonomie 

Test criterie 

Test culturellement equitable 

Test d'acquisition/sj 

Test d'ancrage 

Test d'aptitude 

Test de connaissances 

Test de madrise 

Test gradue 

Test norme 

Test standardise 

Testing 

Testing adaptalif 
Testing sur mesure 
Tests poralleles 
Theorie des traits lalents 
Traduction bidirectionnelle 
Traduction unidirectionnelle 
Trait latent (6) 
Unidimensionnel 
Valeur attendue 
Valeur theorique 
Validite 

Validite concepluelle 
Validite concomitante 
Validite corner gent e 
Validite criterielle 
Validite de consequence 
Validite de contenu 
Validite liee a un critere 
Validite predictive 
Validite theorique 
Variance 
Variance d'erreur 


Standard 

Standardize 

Stonine 

Inferential statistics 
Taxonomy 

Criterion-referenced test 
Culture-fair test 
Achievement test 
Anchor test 
Aptitude test 
Achievement test 
Mastery test 
Scaled test 
Norm-referenced test 
Standardized test 
Testing 

Adoptive testing 
Tailored testing 
Parallel tests 
Latent trait theory 
Bockward translation 
Forward translation 
Latent trait (0) 
Unidimensional 
Expected value 
Expected value 
Validity 

Construct validity 
Concurrent validity 
Convergent validity 
Criterion validity 
Consequential validity 
Content validity 
Criterion validity 
Predictive volidity 
Construct volidity 
Variance 
Error variance 
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Anglais 

Absolute error 
Achievement test 
Achievement test 
Adaptive testing 
Age-equivalent score 
Alternate choice item 
Anchor lest 
Aptitude test 
Assessment 
Asymetry 
Average 

Backward translation 
Bias 

Binomial distribution 
Binomial error model 
Clue 

Cluster sampling 
Coefficient of determination 
Composite score 
Compound binomial error model 
Concurrent validity 
Confidence interval 
Consequential validity 


Froncais 

Erreur absolue 
Test d'acquisition/s! 

Test de connaissances 
Testing adaptatif 
Score en niveau d'age 
Question « vraiTaux » 

Test d'ancrage 
Test d'aptitude 
Evaluation 
Asymetrie 
moyenne 

Traduction unidirectionnelle 
Biais 

Distribution binomiale 
Modele binomial de Terreur 
Indice 

Echantillonnage par grappes 
Coefficient de determination 
Score composite 

Modele binomial composite de /'erreur 
Validite concomitante 
Interval I e de confiance 
Validite de consequence 
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Construct 
Construct 
Construct validity 
Construct validity 
Constructed-response item 
Content validity 
Convergent validity 
Covariance 
Criterion 
Criterion validity 
Criterion validity 
Criterion-referenced test 
Critical incident 
Cultural reducedness 
Culture-fair test 
Cut score 
Cut score 

Decision consistency 

Degree of freedom 

Delta-plot method 

Design 

Design 

Dichotomous 

Differential Item Functioning 

Difficulty index 

Dimension 

Distractor 

Distractor 

Equate 

Equating 

Equipercentile equating 
Error variance 
Essay item 
Estimation error 
Expected frequency 
Expected value 
Expected value 
Extended response 
Facet 

Factor Analysis 
Factor loading 
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Modele 

Concept hypothetique 
Validite theorique 
Validite conceptuelle 
Question fermee 
Validite de contenu 
Validite convergente 
Covariance 
Critere 

Validite liee a un critere 

Validite criterielle 

Test criterie 

Incident critique 

Bornes culturelles 

Test culturellement equitable 

Score seuil 

Note de cesure 

Coherence de la decision 

Degre de liberte 

Methode du graphique Delta 

Dispositif 

Plan 

Dichotomique 

Fonctionnement differentiel d'item 

Indice de difficulty 

Dimension 

Distracteur 

Leurre 

Apparier 

Mise en equivalence 

Mise en equivalence equipercentile 

Variance d’erreur 

Question a reponse narrative 

Erreur d'estimation 

Frequence theorique 

Valeur theorique 

Valeur attendue 

Reponse etendue 

Ficelle 

Analyse factorielle 
Saturation factorielle 
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Field-test 

Focal group 

Forced-choice item 

Forward translation 

Frequency 

Frequency 

Generalizabilily 

Goodnessof-fit 

Grade-equivalent score 

Guessing 

Guessing 

Guttman scale 

Index of dependability 

Inferential statistics 

Information function 

Internal consistency 

Item characteristic curve 

Item characteristic function 

Item difficulty 

Item response model (IRAA) 

Kuriosis 
Latent trait (0) 

Latent trait theory 

Least squares method (LSM) 

Linear equating 
Linking 

Local independence 
Main effect 
Mastery lest 
Matched samples 
Matched samples 
Matching item 

Maximum likelihood estimation |MLE) 
Mean 

Mean square (MS) 

Measurement 

Measurement error 

Measurement of change 

Median 

Moments 

Monotone 


Pretest 

Groupe focal 

Question a choix force 

Traduction unidirectionnelle 

Effedil (se dit surtout des sujetsj 

Frequence 

Generalisabilite 

Qualite de I'ajustement 

Score en niveau scolaire 

Choix au hasard 

Choix aleatoire 

Echelle de Gultmon 

Coefficient d'assurance 

Statistiques inferentielles 

Fonction d'information 

Coherence interne 

Courbe caracteristique de I'item 

Fonction caracteristique de I'item 

Difficulty de I'item 

Modele de lo reponse a I'item 

Kurtose 

Trait latentfdl 

Theorie des traits latents 

Methode des moindres carres 

M'se en equivalence lineaire 

liaison 

Independence locale 

Effet principal 

Test de maitrise 

E chantilIons pmires 

Echantillons lies 

Question d'appariement 

Estimation du maximum de vraisemblance 

Moyenne 

Carre moyen(CM) 

Mesure 

Erreur de mesure 

Mesure du changement 

Mediane 

Moments 

Monotone 
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Multidimensional 
Multiple-choice item 
Nesting 
Nominal scale 
Normal distribution 
Normalized zscore 
Norm-referenced test 
Observed frequency 
One-parameter logistic mode! 
Ordinal scale 
Ordinal scale 
Parallel tests 

Partition of the variance 
Percentage of agreement 
Percentile rank 
Performance item 
Polychotomous 
Predictive validity 
Premise 

Principal component analysis 

Pseudo-guessing parameter 

Quota sampling 

Random 

Rating scale 

Ratio scale 

Ratio scale 

Raw score 

Reference group 

Relative error 

Reliability 

Reliability coefficient 
Residua! 

Restricted response 

Sampling 

Scaled score 

Scaled test 

Scaling 

Scatterplot 

Scoring 

Short-answer item 
Semi-quartile interval 


Mu/tidimensionnel 

Question a choix multiple 

Nichoge 

Echelle nominale 

Distribution nor male 

Score z normalise 

Test norme 

Frequence observee 

Modele logislique a I porometre 

Echelle ordinale 

Echelle de rangs 

Tests paralleles 

Repartition de la variance 

Pourcentage d'accord 

Rang percentile 

Question de performance 

Polychotomique 

Validite predictive 

Premisse 

Analyse en composantes principals 
Parametre de pseudo-chance 
Echantillonnage par quota 
Aleatoire 

Echelle de cotation 
Echelle de rapport 
Echelle proportionnelle 
Score brut 

Groupe de reference 
Erreur relative 
Fidelite 

Coefficient de fidelite 
Residu 

Reponse contrainte 

Echantillonnage 

Score d'echelle 

Test gradue 

Echelonnage 

Graphique de dispersion 

Cotation 

Question a reponse breve 
Intervalle semi-interquartile 
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Skewness 

Slope 

Smoothed curve 
Smoothing 
Split-halves method 
Standard 

Standard deviation 

Standard error 

Standard error of estimate 

Standard error of measurement 

Standardization 

Standardize 

Standardize 

Standardized test 

Stanine 

Stanine scale 

Statistical power 

Stem and leaves histogram 

Stratified sampling 

Subscore 

Sum of squares(SS) 

Systematic sampling 
lailored testing 
Taxonomy 

Test characteristic curve 
Test specification 
Testing 

Tetrachoric correlation 
True score 
True-false item 
Type I error 
Type II error 
Unidimensional 
Validity 
Variance 

Variance component 
Variance-covariance matrix 
Weighted score 


Asymetrie 

Pente 

Courbe lissee 
Lissage 

Methode de bissection 
Standard 
Ecart type 
Erreur type 

Erreur type d'estimation 

Erreur type de mesure 

Etalonnage 

Standardiser 

Etalonner 

Test standardise 

Stanine 

Echelle en stonine 
Puissance statistique 
Diogramme en tiges et en feuilles 
Echantillonnage strati fie 
Sous-score 

Somme des carresfSCI 
Echantillonnage systematique 
Testing sur mesure 
Taxonomie 

Courbe caracterislique du test 
Specification d'un test 
Testing 

Correlation tetrachorique 
Score vrai 

Question 6 reponse « vrai-faux » 

Erreur de type I 

Erreur de type II 

Unidimensionnel 

Validite 

Variance 

Composante de variance 
Matrice des variances-covariances 
Score pond ere 
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